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讨论 等 多 种 方式 ， 介 绍 了 机 器 学 
想 。 本 书 的 内 容 既 包括 贝 叶 斯 分 类 器 、 最 近 
邻 分 类 器 、 线 性 和 多 项 式 分 类 器 、 决 策 树 、 
神经 网 络 以 及 支持 向 量 机 等 工具 的 介绍 ， 又 
包含 了 如 何 把 这 些 简单 工具 通过 “提升 
( Boosting ) 的 方式 结合 起 来 ， 怎 样 将 它 
应 用 于 更 加 复杂 的 领域 ， 以 及 如 何 处 理 各 
高 级 的 实践 问题 等 。 书 中 还 有 一 章 专 门 介绍 


了 广为人知 的 遗传 算法 。 AAA 
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本 书 通过 给 出 易 操作 的 实践 指导 、 采 用 简单 的 案例 、 激 励 学 生 讨 论 有 兴趣 的 应 用 问题 ， 
用 一 种 易于 理解 的 方式 介绍 了 机 器 学 习 的 基本 思想 。 本 书 主题 包括 贝 叶 斯 分 类 器 、 最 近邻 分 
类 器 、 线 性 和 多 项 式 分 类 器 、 决 策 树 、 神 经 网 络 以 及 支持 向 量 机 ， 且 展示 了 如 何 把 这 些 简 单 
工具 通过 “提升 ” (Boosting) 的 方式 结合 起 来 ， 怎 样 将 它们 应 用 于 更 加 复杂 的 领域 ， 以 及 如 
何 处 理 各 种 高 级 的 实践 问题 。 书 中 对 广为人知 的 遗传 算法 也 做 了 介绍 。 
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机 器 学 习 是 人 工 智能 领域 的 一 个 重要 分 支 ， 其 研究 涉及 代数 、 几 何 、 概 率 统 
计 、 优 化 、 泛 函 分 析 、 图 论 、 信 息 论 、 算 法 、 认 知 计算 等 多 个 学 科 的 知识 ， 其 应 
用 不 仅仅 限于 模式 识别 、 计 算 机 视觉 、 数 据 挖掘、 生物 信息 学 、 智 能 控制 等 科学 
和 工程 领域 ， 甚 至 在 社会 科学 领域 的 研究 中 也 有 应 用 ， 如 管理 学 、 经 济 学 和 历史 
学 等 。 目 前 ， 随 着 计算 机 科学 和 智能 科学 技术 的 进步 ， 机 器 学 习 得 到 了 快速 发 展 ， 
其 方法 被 广泛 应 用 到 了 各 个 领域 。 尤 其 是 近 些 年 ， 深 度 学 习 方 法 快速 发 展 并 在 多 
个 领域 展示 出 优异 性 能 ， 使 机 器 学 习 和 整个 人 工 智能 领域 受到 极 大 的 关注 。 

机 器 学 习 是 基于 已 有 数据 、 知 识 或 经 验 来 设计 模型 或 发 现 新 知识 的 一 个 研究 领 
域 。20 世纪 50 ~70 年 代 是 机 器 学 习 研 究 的 初期 ， 人 们 基于 逮 辑 知识 表示 试图 给 机 器 
赋予 逻辑 推理 能 力 ， 取 得 了 很 多 振奋 人 心 的 成 果 ; 20 世纪 80 年 代 ， 专 家 系统 受到 高 
度 重 视 ， 为 专家 系统 获取 知识 成 为 一 个 重要 方向 。20 世纪 80 年 代 中 后 期 ， 人 工 神经 
网 络 由 于 误差 反 向 传播 (BP) 算法 的 重新 提出 和 广泛 应 用 而 形成 一 股 热潮 ， 但 其 地 
位 在 90 年 代 后 期 被 以 支持 向 量 机 为 核心 的 统计 学 习 理 论 所 取代 。20 世纪 90 年 代 以 
后 ， 受 重视 的 机 带 学 习 方 法 还 有 集成 学 习 、 概 率 图 模型 、 半 监督 学 习 、 迁 移 学 习 等 。 
2006 年 ， 以 加 拿 大 多 伦 多 大 学 的 G，Hinton 教授 为 代表 的 几 位 研究 人 员 在 深度 学 习 
方面 取得 巨大 突破 ， 在 Google, Microsoft, Facebook 等 科技 公司 的 推动 下 ， 深 度 学 习 
背 助 于 大 数据 和 高 性 能 计算 的 有 利 条 件 得 到 了 广泛 应 用 和 高 度 关注 。 目 前 ， 搜 索引 
擎 、 机 器 人 、 无 人 驾驶 汽车 等 高 科技 产品 都 依赖 于 机 器 学 习 技 术 。 机 器 学 习 ， 特 别 
是 深度 学 习 ， 在 语音 识别 、 人 脸 识 别 、 围 棋 、 游 戏 等 方面 已 经 超过 了 人 类 水 平 ， 可 
以 想象 机 器 学 习 与 人 类 的 生产 、 生 活 之 间 的 关系 将 会 越 来 越 紧密 。 

过 去 几 十 年 ， 机 器 学 习 领 域 也 出 现 了 一 些 经 典 的 著作 或 教材 。1983 年 ， 
R. Michalski, J. Carbonell #11 T. Mitchell 主编 的 《机 器 学 习 : 一 种 人 工 智能 方法 》 一 
书 出 版 ， 标 志 着 机 器 学 习 成 为 人 工 智 能 的 一 个 独立 研究 领域 。《Machine Learning) 
期 刊 创 刊 于 1986 年 ， 目 前 依然 是 机 器 学 习 领 域 的 顶级 期 刊 。1990 年 ，J Carbonell 








































































































主编 的 《机 器 学 习 : 范式 与 方法 》 对 归纳 学 习 、 基 于 解释 的 学 习 、 遗 传 算法 和 连 
接 主义 学 习 等 机 器 学 习 范 式 及 方法 进行 了 深入 探讨 。T _ Mitchell 于 1997 年 出 版 的 
《机 器 学 习 》 是 一 本 经 典 的 机 器 学 习 教 材 ， 其 中 文 版 已 于 2003 年 由 机 械 工业 出 版 
社 出 版 ， 但 因为 出 版 年 限 较 早 ， 许 多 内 容 已 没有 时 效 性 。1998 4F, V. Vapnik 出 
版 的 《统计 学 习 理 论 》 是 一 本 完整 前 述 统 计 机 器 学 习 思 想 的 名 著 。2001 年 出 版 、 
2009 年 再 版 的 《统计 学 习 基础 : 数据 挖掘 ， 推 理 和 预测 》 是 美国 斯 坦 福 大 学 教授 
T. Hastie, R. Tibshirani #il J. Friedman 的 一 部 力作 ， 其 中 对 最 为 流行 的 机 器 学 习 
方法 进行 了 全 面 而 深入 的 介绍 ， 因 其 严谨 的 数学 推导 ， 该 书 不 失 为 机 器 学 习 研 究 
进 阶 的 很 好 的 读物 。E.，Alpaydin Bren (HLA Ive) h he F 2004 年 并 于 
2010 年 再 版 ， 书 中 对 基础 的 机 带 学 习 方法 进行 了 介绍 ， 是 一 本 机 器 学 习 入 门 的 很 
好 的 教材 。C，Bishop 所 著 的 《模式 识别 与 机 器 学 习 》 和 和，Murphy 所 著 的 《机 器 
学 习 : 一 个 概率 的 视角 》 分 别 于 2006 年 和 2012 年 出 版 ， 两 本 书 都 从 概率 的 角度 
全 面 而 细致 地 介绍 了 许多 经 典 的 机 器 学 习 模 型 。C. Bishop 的 《模式 识别 与 机 器 学 
习 》 可 帮助 读者 打下 坚实 的 机 器 学 习 基 础 ， 而 K. Murphy 的 书 则 相对 介绍 了 更 多 
较 新 的 机 器 学 习 算 法 ， 甚 至 有 一 章 专门 介绍 了 深度 学 习 方法 。2012 年 ， 李 航 老师 
出 版 了 《统计 学 习 方法 》，2016 年 ， 周 志 华 老师 出 版 了 《机 器 学 习 》。 这 两 本 书 
中 ,《 统 计 学 习 方法 》 主要 集中 于 几 种 重要 机 器 学 习 模型 的 介绍 ， 而 《机 器 学 习 》 
内 容 相对 更 加 全 面 ， 深 入 浅 出， 堪 称 机 器 学 习 的 中 文 经 典 著作 。 相 对 于 以 上 这 些 
机 器 学 习 书 籍 ，M，Kubat 所 写 的 这 本 《机 器 学 习 导 论 》 更 像 是 一 本 科普 性 质 的 读 
物 ， 作 者 尽量 避 开 复杂 的 数学 公式 ， 用 生动 形象 的 方式 介绍 机 器 学 习 算 法 ,而且 
本 书 篇 幅 适 当 ， 又 涵盖 了 几乎 所 有 基本 的 机 器 学 习 方法 ,使 得 本 书 不 仅 适合 作为 
本 科学 生机 咒 学 习 课 程 的 教材 ， 也 适合 于 想 了 解 机 器 学 习 入 门 知 识 的 普通 读者 。 

本 书 的 译 者 都 是 工作 在 机 器 学 习 教 学 与 研究 第 一 线 的 年 轻 老 师 ， 其 中 仲 国 强 
副教授 过 去 是 我 的 博士 研究 生 ， 在 模式 识别 和 机 器 学 习 领 域 都 有 很 扎实 的 研究 基 
础 。 相 信 本 书 的 中 译本 对 于 国内 机 器 学 习 的 教学 和 研究 都 会 有 所 神 益 ， 也 为 更 多 
的 人 ,尤其 是 初学 者 了 解 机 器 学 习 打开 一 扇 门 。 
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目前 ， 机 器 学 习 慢 慢 走向 成 熟 。 你 可 能 觉得 这 只 是 老生 常 谈 ， 请 让 我 做 一 个 
详细 说 明 。 

人 们 硕 望 机 需 某 一 天 能 够 自己 学 习 ， 这 个 梦想 几乎 在 计算 机 出 现时 就 有 了 ， 
也 许 更 早 。 不 过 ， 长 久 以 来 ， 这 仅仅 是 一 个 想象 而 已 。 罗 森 布 拉 特 (Rosenblatt) 
感知 器 的 提出 曾经 掀起 过 一 股 热潮 ， 但 是 现在 回想 起 来 ， 这 股 热潮 没 能 持续 很 长 
的 时 间 。 至 于 接 下 来 的 尝试 ， 使 情况 发 展 得 更 糟糕 ， 这 个 领域 甚至 没有 再 引起 人 
们 的 注意 ， 长 期 被 忽视 ， 因 而 无 法 取得 重大 突破 ， 也 没有 这 一 类 的 软件 公司 ,后 
续 研究 寥寥 无 几 且 得 到 的 资金 支持 也 不 多 。 这 个 阶段 ， 机 带 学 习 一 直 不 被 看 好 ， 
像 进入 休眠 期 一 样 ， 在 其 他 成 功 学 科 的 阴影 里 生存 。 

然而 ， 接 下 来 发 生 的 一 切 使 这 些 矣 势 彻底 改变 了 。 

一 群 有 识 之 士 指出 ,在 20 世纪 70 年 代 的 人 工 智能 领域 ， 基 于 知识 的 系统 曾 
经 风靡 一 时 ， 但 它们 有 一 个 弱点 : “知识 ”从 哪里 来 ? 当时 主流 的 观点 认为 ， 应 
该 让 工程 师 和 领域 专家 合作 ， 用 if-then 的 形式 表示 出 来 。 但 是 实际 情况 差强人意 ， 
专家 们 发 现 很 难 把 掌握 的 知识 表达 给 工程 师 。 反 过 来 ,工程 师 也 不 知道 该 问 什么 
问题 以 及 如 何 表 示 管 案 。 尽 管 有 儿 个 广为人知 的 成 功 案 例 ， 但 是 其 他 大 多 数 研 究 
都 试图 建立 知识 库 ， 并 且 成 千 上 万 的 规则 令 人 诅 丧 。 

这 些 有 识 之 士 主张 简单 和 直接 的 操作 。 如 果 难 以 准确 地 告诉 机 天 如 何 处 理 某 
个 问题 ， 那 么 为 什么 不 间接 地 给 出 指令 ， 通 过 例子 展示 所 需要 的 技能 ， 计 算 机 将 
通过 这 些 例子 来 学 习 ! 

当然 ， 这 必须 要 有 能 够 进行 学 习 的 算法 才 有 意义 ， 这 也 是 困难 所 在 。 无 论 是 
罗 森 布 拉 特 的 感知 器 还 是 后 来 出 现 的 技术 都 不 太 管 用 。 然 而 ， 机 顺 学 习 在 技术 方 
面 的 缺乏 算 不 上 是 障碍 ， 相 反 是 一 个 挑战 ， 并 激发 出 了 很 多 绝妙 的 点 子 。 其 中 ， 
使 计算 机 有 学 习 能 力 这 个 想法 开创 了 一 个 激动 人 心 的 新 领域 , 并 引起 了 世人 的 











































































































关注 。 

这 一 想法 在 1983 年 爆发 了 。 一 卷 很 厚 的 论文 集 一 一 《机 需 学 习 : 人 工 智能 的 
方法 》° 中 提出 了 很 多 各 式 各 样 的 方法 来 求解 这 个 谜 题 。 在 它 的 影响 下 ， 几 乎 一 夜 
之 间 一 个 新 的 学 科 诞生 了 。3 年 后 ,后续 著作 一 本 接 一 本 地 出 现 。 相 关 学 术 刊 物 
也 很 快 被 创立 ， 有 着 巨大 影响 力 的 年 度 学 术 会 议 相 继 召 开 。 几 十 、 或 许 是 几 百 篇 
博士 论文 完成 并 通过 答辩 。 

早期 阶段 ， 问 题 不 仅 是 如 何 学 习 ， 而 是 学 什么 和 为 什么 学 。 这 段 充 满 创造 力 
的 岁月 让 人 难以 忘怀 ， 唯 一 有 些 遗 憾 的 是 很 多 非常 好 的 想法 后 来 被 放弃 了 。 实 用 
主义 占 了 上 风 ， 资 源 都 被 投向 那些 最 有 希望 的 方向 。 经 过 一 段 时 间 的 发 展 ， 具 体 
研究 基本 成 形 : 知识 系统 if-then 规则 的 归纳 ， 分 类 归纳 ， 程 序 基 于 经 验 来 提高 技 
能 ，Prolog 程序 自动 调 优 ， 以 及 其 他 方面 。 相 关 的 研究 方向 非常 多 ， 一 些 知名 学 
者 希望 通过 写 书 来 引领 未 来 的 发 展 ， 这 其 中 有 些 人 做 得 很 成 功 。 

机 噩 学 习 发 展 的 一 个 重要 的 转折 点 是 汤姆 米 切 尔 (Tom Mitchell) 的 传奇 教 
科 书 ”。 该 书 向 博士 生 和 科学 家 们 总 结 了 该 领域 的 发 展现 状 ， 慢 慢 地 大 学 也 用 这 
本 书 作为 研究 生 的 教材 。 同 时 ， 研 究 方法 也 变 得 更 加 系统 化 。 大 量 机 需 学 习 测 试 
库 被 建立 起 来 ， 用 于 比较 性 能 或 者 学 习 算 法 的 优 劣 。 统 计 评 佑 方法 也 被 广泛 地 使 
用 在 评估 过 程 中 。 相 关 流 行程 序 的 公开 版 本 很 容易 获得 ， 从 事 这 个 学 科 的 人 数 增 
至 数 千 ， 甚 至 更 多 。 

现在 ， 到 了 很 多 大 学 都 为 本 科 生 开设 机 需 学 习 课 程 的 阶段 。 通 常 这 些 课程 需 
要 不 同类 型 的 教材 。 除 了 掌握 基本 技术 以 外 ， 学 生还 需要 了 解 不 同方 法 的 优点 和 
缺点 ， 以 及 不 同情 况 下 每 种 方法 的 独特 之 处 。 最 重要 的 是 ， 他 们 需要 理解 在 特定 
情况 下 ， 哪 些 技术 是 可 行 的 ， 哪 些 是 不 可 行 的 。 只 有 这 样 才能 在 解决 具体 问题 时 
做 出 正确 的 选择 。 一 本 教材 除了 满足 以 上 的 各 项 要 求 外 ， 还 应 该 介绍 一 些 数学 概 
念 ， 多 包括 一 些 实用 的 建议 。 
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关于 教材 ， 还 要 考虑 材料 的 多 少 、 结 构 以 及 风格 ， 以 便 能 够 文 持 一 个 学 期 的 
导论 课程 。 

第 一 个 问题 是 材料 的 选择 。 当 高 科技 公司 准备 成 立 机 器 学 习 研 究 团队 时 ， 大 
学 就 要 向 学 生 传 授 相应 的 知识 和 技能 ， 以 及 对 有 关 行 业 需 求 的 理解 。 出 于 这 个 原 
因 ， 本 书 重点 介绍 了 贝 叶 斯 分 类 器 ， 最 近邻 分 类 器 ， 线 性 和 多 项 式 分 类 需 ， 决 策 
树 ， 神 经 网 络 的 基础 ， 以 及 提升 (Boosting) 算法 的 原理 。 本 书 用 很 大 篇 幅 来 描述 
有 具体 应 用 的 典型 特征 。 在 现实 中 ， 当 面 对 有 一 定 难度 的 任务 时 ， 一些 基 本 方法 和 
老师 在 实验 环境 下 演示 的 结果 可 能 不 完全 一 样 。 因 此 在 学 习 过 程 中 ,学生 必须 知 
道 每 种 方法 会 发 生 什么 。 

本 书 共 包 括 14 章 ， 每 章 覆 六 一 个 专题 。 各 章 分 成 很 多 个 小 节 ， 每 节 介 绍 一 个 
关键 问题 。 建 议 学 生 在 做 完 每 一 节 后 面 的 2 ~4 个 “控制 问题 ”后 再 学 习 下 一 节 。 
这 些 问题 用 来 帮助 检查 学 生 对 学 习 材 料 的 掌握 情况 。 如 果 不 会 做 这 些 题 ， 则 有 必 
要 重新 阅读 相关 内 容 。 

俗话 说 ， 实 践 出 真知 。 每 章 结 尾 安排 了 必要 的 练习 用 于 实际 操作 。 如 果 接 下 
来 的 思考 实验 能 够 全 部 完成 ， 将 有 助 于 更 深入 地 理解 所 学 内 容 的 各 个 方面 。 不 过 
这 些 实验 难度 较 大 ， 只 有 付出 很 大 努力 才能 获得 正确 的 答案 。 所 学 的 知识 在 上 机 
实验 中 可 被 进一步 巩固 。 编 程 对 于 学 习 同 样 也 很 重要 。 现 在 ， 人 们 都 习惯 从 网 上 
下 载 所 需 的 程序 ， 这 是 捷径 ， 但 本 书 不 建议 这 样 做 ， 因 为 只 有 具体 实现 了 程序 的 
全 部 细节 ， 才 能 领会 机 器 学 习 技术 的 精妙 之 处 。 
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你 会 发 现 精确 地 描述 你 母亲 的 相貌 ， 让 朋友 能 在 超市 里 认 出 她 ， 是 很 难 的 。 
但 如 果 你 给 他 看 几 张 你 母亲 的 照片 ， 他 就 能 立刻 找 出 所 需要 的 特征 。 这 就 是 人 们 
常 说 的 ,一 张 图 片 ， 也 就 是 一 个 样 例 ， 胜 过 千言 万 语 。 

这 就 是 我 们 希望 用 技术 去 实现 的 。 当 不 能 足够 精确 地 定义 菏 些 事物 或 概念 时 ， 
我 们 希望 以 样 例 的 方式 把 它们 传输 给 机 器 。 然 而 ,计算 机 必须 能 将 样 例 转换 成 知 
识 才 能 奏效 。 所 以 ， 我 们 的 兴趣 在 于 机 融 学 习 (machine learning) 的 算法 和 技术 ， 
也 是 这 本 书 的 主题 。 

第 1 章 将 任务 表示 为 一 个 搜索 问题 ， 并 介绍 了 扑 山 搜索 算法 。 扑 山 搜 索 算法 
不 仅 是 我 们 解决 机 器 学 习 任 务 的 初步 尝试 ， 而 且 也 为 解决 后 面 儿童 中 的 一 些 辅助 
问题 提供 便利 的 工具 。 在 这 些 基础 上 ， 我 们 将 继续 探索 一 些 能 使 学 习 过 程 苗 中 带 
乐 的 问题 ,包括 性 能 标准 、 实 验方 法 以 及 其 他 方面 。 





























1.1 训练 集 和 分 类 避 


让 我 们 首先 介绍 一 些 贯穿 全 书 的 问题 和 基本 概念 。 

预 分 类 训练 样 例 。 图 1. 1 展示 了 6 种 乔 尼 (Johnny) 喜欢 和 不 喜欢 的 派 。 这 
HIEP] (positive examples) FIHP] (negative examples) 的 基本 概念 构成 了 一 个 训 
练 集 (training set) ， 并 以 此 由 机 器 归纳 出 一 个 分 类 器 (classifier) 一 一 一 种 能 将 
今后 任何 的 派 归 为 正 、 负 两 个 类 别 之 一 的 算法 。 




















乔 尼 喜欢 的 乔 尼 不 喜欢 的 


eon at” 
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图 1.1 一 个 简单 的 机 器 学 习 任 务 : 归纳 学 习 出 一 个 能 将 今后 任何 派 归 类 为 正 
例 和 负 例 的 分 类 器 ， 如 归纳 学 习 一 个 “ 乔 尼 喜欢 的 派 ”的 分 类 器 


第 1 章 
一 个 简单 的 机 器 学 习 任务 








毫 无 疑问 ， 分 类 的 数量 可 以 更 多 。 例 如 ， 一 个 分 类 需要 有 春 、 夏 、 秋 、 冬 4 
个 分 类 ， 才 能 辨别 出 一 张 风景 照 拍摄 于 哪个 季节 。iPad 上 识别 手写 字迹 的 软件 则 
至 少 需要 36 个 分 类 : 26 个 字母 和 10 个 阿拉 伯 数 字 ， 文 件 分 类 系统 可 以 识别 成 百 
上 千 种 不 同 的 主题 。 我 们 之 所 以 只 选择 二 分 类 域 ， 只 是 因为 它 简 单 。 

属性 向 量 。 为 将 训练 样 例 (example) 发 送 给 机 器 ， 我 们 必须 用 恰当 的 方法 描 


述 它 们 。 最 常见 的 方法 是 使 
































崩 所 谓 的 属性 (attributes) 。 在 “ 派 ” 问 题 域 中 ， 共 有 


5 种 属性 : 形状 (shape)， 取 值 包 括 圆 形 〈circle)、 三 角形 〈triangle) 和 方形 
(square); 外 壳 尺 寸 〈crust size) ， 取 值 包括 厚 (thick) 和 薄 (thin); 外 壳 色 度 
(curst shade) ， 取 值 包 括 白 色 (white), KE (gray) MRE (dark); 饮料 尺寸 
(filling size) ， 取 值 包括 厚 (thick) 和 薄 (thin); 馅 料 色 度 (filling shade) ， 取 值 
包括 白色 (white)、 灰 色 (gray) 和 深 色 (dark), #1.1 指定 了 图 1.1 中 12 个 训 





练 样 例 的 
组 合 属 性 描述 : 











属性 值 。 例 如 ， 图 1. 1 中 左上 角 的 派 (在 表 1.1 中 称 之 为 ex1) 可 用 下 列 


(shape = circle ) AND ( crust — size = thick ) AND ( crust - shade = gray ) 


AND (filling ~ size = thick ) AND ( filling ~ shade = dark ) 
































表 1.1 以 矩阵 形式 表示 的 12 个 训练 样 例 
外 壳 (crust) tF (filling) 
样 例 Rot 色 度 Rot 色 度 类 别 
( shape) 
( size) ( shade) ( size) ( shade) 
exl circle thick gray thick dark pos 
ex2 circle thick white thick dark pos 
ex3 triangle thick dark thick gray pos 
ex4 circle thin white thin dark pos 
ex5 square thick dark thin white pos 
ex6 circle thick white thin dark pos 
ex7 circle thick gray thick white neg 
ex8 square thick white thick gray neg 
ex9 triangle thin gray thin dark neg 
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(2) 
R 5h (crust) 馅 料 (filling) 
are 
样 例 Rt 色 度 尺寸 色 度 类 别 
( shape) 
( size) ( shade) ( size) ( shade) 
exl0 circle thick dark thick white neg 
exll square thick white thick dark neg 
ex12 triangle thick white thick gray neg 



































归纳 分 类 器 。 我 们 用 训练 集 组 成 的 输入 来 归纳 分 类 器 ， 但 这 是 什么 形式 的 分 
Barve? 假定 我 们 让 它 符合 布尔 函数 的 形式 ， 正 例 为 真 (tue)， 负 例 为 假 
(false) 。 当 用 训练 集 来 检查 表达 式 [ (shape = circle) AND (filling-shade = dark ) ] 
时 ， 我 们 会 发 现 ， 所 有 的 负 例 值 都 为 假 : 因为 在 负 例 中 ， 当 样 例 形状 为 贺 形 时 ， 
没有 灰色 的 馅 。 然 而 在 正 例 中 ， 有 4 个 为 真 ， 其 余 两 个 为 假 。 这 说 明 分 类 器 犯 了 
两 个 我 们 可 能 无 法 容忍 的 错误 ， 从 而 我 们 猜测 存在 更 好 的 解决 办 法 。 

事实 上 ， 读 者 很 容易 证 明 下 面 的 表达 式 在 整个 训练 集中 都 不 会 出 错 : 











[ (shape = circle ) AND ( filling - shade = dark) ] OR 
[ NOT( shape = circle) AND( crust — shade = dark ) | 


蛮 力 方法 的 问题 。 机 带 发 现 这 种 分 类 融会 如 何 ? 蛮 力 (计算 机 最 擅长 的 事 
情 ) 在 这 里 行 不 通 。 设 想 一 下 ， 用 “ 派 ” 问 题 中 特定 的 属性 可 以 识别 出 多 少 个 不 
同 的 样 例 ? 对 于 3 种 不 同 的 形状 ， 每 种 形状 就 有 两 个 不 同 的 外 过 尺寸 可 供 选 择 ， 
那么 其 组 合 数量 为 3 x2 =6。 对 这 6 种 组 合 的 每 一 种 的 下 一 个 属性 ， 即 外 壳 色 度 ， 
有 3 种 不 同 的 值 ， 此 时 组 合 数量 变 为 3 x2 x3 =18。 将 所 有 属性 以 此 类 推 ， 会 发 现 
样 例 空间 包含 3 x2 x3 x2 x3 =108 个 不 同 的 样 例 。 

这 些 样 例 的 每 个 子 集 一 一 一 共有 2 “个子 集 ! 可 能 包含 了 代表 某 些 人 “好 的 
派 ”概念 的 正 例 列 表 ， 且 每 个 子 集 至 少 由 一 个 布尔 表达 式 来 描述 。 显 而 易 见 ， 用 
训练 集 来 检验 每 一 个 分 类 器 是 天 方 夜 谭 。 

人 工 方法 及 搜索 。 虽 然 我 们 不 确定 如 何 创造 出 一 个 归纳 分 类 器 算法 ， 但 是 可 
以 尝试 “手动 地 ”发 明 一 种 分 类 器 ， 并 通过 古老 但 好 用 的 纸 笔 测 试 法 来 寻找 灵 
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感 。 在 这 个 过 程 中 ， 我 们 先 从 试探 性 的 初始 版 本 入手， 例如 ，shape = circle, HYI 
练 集 检验 该 表达 式 后 ， 我 们 发 现 4 个 正 例 和 两 个 负 例 为 真 。 显 然 ， 分 类 器 需要 
“缩小 ”( 特殊 化 ) 来 排除 那 两 个 负 例 。 特 殊 化 的 一 个 方法 是 添加 连接 词 ， 例 如 ， 
把 shape = circle 变 成 [(shape = circle ) AND (filling - shade = dark)]。 新 的 表达 式 
虽然 使 所 有 负 例 都 为 假 ， 但 依旧 有 缺点 ， 因 为 它 只 包含 了 6 个 正 例 中 的 4 个 〈 即 
exl, ex2, ex4, 、ex6) 。 因 此 ， 下 一 步 应 尝试 一 般 化 ， 如 添加 分 离 词 : {[ (shape = 
circle) AND (filling - shade = dark) ] OR (crust - size = thick) | 。 我 们 不 停 地 重复 这 
个 过 程 ， 直 到 找到 一 个 100% 准确 的 分 类 器 为 止 ( 如 果 存 在 )。 

这 种 自省 法 告诉 我 们 ， 分 类 器 可 以 通过 一 系列 特殊 化 以 及 一 般 化 的 步骤 ， 通 
过 逐步 调整 一 个 给 定 的 分 类 器 来 创建 ， 直 到 符合 某 个 预定 义 的 要 求 。 这 对 后 期 的 
研究 极 具 鼓 励 意义 。 了 解 人 工 智能 的 读者 会 把 这 个 过 程 看 作 在 布尔 表达 式 空间 里 
的 搜索 。 人 工 智能 发 展 和 探索 了 很 多 这 样 的 搜索 算法 ， 建 议 对 其 中 一 些 算法 做 一 
个 初步 了 解 。 





























Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 在 刚才 的 讨论 中 ， 什 么 是 学 习 问 题 的 输入 和 输出 ? 

。 我 们 是 如 何 描述 训练 样 例 的 ? 什么 是 样 例 空间 ? 可 以 计算 它 的 大 小 吗 ? 

。 在 “ 派 ” 域 中 找 出 一 个 布尔 表达 式 ， 将 表 1.1 中 的 所 有 训练 样 例 正确 











1.2 一 点 题 外 话 : MGR 


现在 ， 我 们 把 讨论 过 的 搜索 问题 形式 化 ， 并 介绍 一 种 流行 的 算法 ， 也 就 是 所 
WAEL (hill climbing)。 人 工 智能 将 搜索 定义 为 : 从 初 态 (initial state) JF 
始 ， 找 到 一 系列 步骤 ， 通 过 一 组 中 间 的 搜索 状态 (search states), ， 到 达 预 定义 的 
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AAS (final state) 。 从 一 种 搜索 状态 过 渡 到 另 一 种 ， 每 一 步 都 由 程序 员 预 设 的 搜索 
算 符 (search operators) 来 完成 。 搜 索 算 符 应 用 的 步骤 遵循 特定 的 搜索 策略 
(search strategy) , 1. 2 描述 了 这 一 原理 。 














图 1.2 由 初 态 、 终 态 、 搜 索 算 符 和 搜索 策略 形式 化 的 搜索 问题 

















爬山 法 一 一 一 个 示例 。 扑 山 法 是 一 种 流行 的 搜索 策略 。 我 们 要 用 著名 的 脑筋 
急 转 弯 游 戏 ， 也 就 是 数字 滑 块 拼图 来 说 明 疏 山 法 的 本 质 。 该 游戏 通常 的 玩法 是 : 
木板 上 有 排 成 3 行 3 列 的 9 个 方 格 ， 其 中 8 个 放 有 用 数字 编号 的 滑 块 (整数 1 ~ 
8) ， 最 后 一 个 方 格 没有 放置 数字 滑 块 。 通 过 滑动 邻近 滑 块 到 空 方 格 里 来 转变 搜索 
状态 。 游 戏 的 最 终结 果 是 达到 一 个 预 指定 的 滑 块 排列 。 在 图 1.3 所 示 的 流程 图 中 ， 
我 们 从 一 个 具体 的 初 态 开始 ， 并 在 两 个 搜索 算 符 里 进行 选择 : “上 移 滑 块 6” 和 
“ 左 移 滑 块 2”。 此 时 ， 可 以 借助 评估 函数 (evaluation function) ， 通 过 估计 每 个 状 
态 与 目标 的 距离 来 指导 选择 。 最 简单 的 评价 形式 可 能 是 数 出 滑 块 在 到 达 最 终 目 的 
地 时 所 要 滑 过 的 方 格 数 。 在 初 态 中 ， 滑 块 2、4 和 5 已 经 处 于 正确 的 位 置 ; 滑 块 3 
必须 滑 过 4 个 方 格 ; 滑 块 1、6、7、8 每 个 均 要 滑 过 两 个 方 格 。 因 此 ， 距 离 总 和 为 
d=4+4x2=12, 

在 图 1. 3 中 ， 两 种 搜索 算 符 都 能 使 初 态 到 达 一 个 距离 终 态 d = 13 的 状态 。 在 
缺乏 其 他 的 指导 时 ， 我 们 随机 选择 左 移 ， 使 得 空 方 格 在 第 一 行 的 中 间 位 置 。 这 时 
有 3 种 移动 可 能 ， 其 中 一 种 只 能 让 我 们 返回 初 态 ， 因 此 可 以 忽略 掉 。 
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d=14 d=14 














图 1.3 有 的 山 法 。 圈 出 的 整数 代表 搜索 状态 改变 的 顺序 ，d 是 用 特 
定 评估 函数 计算 出 的 该 状态 距 终 态 的 距离 。 遇 到 多 选项 
(此 处 为 两 选项 ) 则 随机 进行 选择 
至 于 剩 下 的 两 种 可 能 性 ， 一 种 能 达到 d = 14 的 状态 ， 另 一 种 能 达到 4d =12 的 
状态 。 我 们 选择 数值 较 小 的 后 者 。 下 一 步 很 简单 ， 只 有 一 种 移动 方式 能 到 达 一 个 
新 的 状态 。 之 后 ， 我 们 又 面临 着 两 种 选择 …… 持 续 这 个 搜索 过 程 直到 达到 终 态 
为 止 。 

可 选 的 终止 标准 和 评估 函数 。 我 们 也 可 以 考虑 其 他 的 终止 标准 (termination 
criteria) 。 当 超过 最 大 期 限时 (我们 不 想 让 计算 机 一 直 运 行 下 去 ) 、 当 已 知 状态 
数量 超过 了 某 个 界限 时 、 当 我 们 已 经 发 现 某 种 十 分 接近 终 态 的 状态 时 、 当 我 们 
发 现 所 有 的 状态 都 出 现 过 时 ， 诸如此类， 这 些 标准 都 可 以 用 来 终止 搜索 过 程 。 
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实际 的 终止 公式 能 反映 特定 应 用 的 决定 因素 ， 并 且 有 时 需要 结合 上 述 的 两 个 或 
多 个 标准 。 

另外 ， 在 数字 滑 块 例子 中 用 到 的 评估 函数 十 分 简单 ， 刚 够 完成 任务 : 让 使 
用 者 把 自己 对 问题 的 理解 转化 成 一 些 概 念 ， 给 那些 需要 的 解决 问题 者 提供 线索 。 
为 了 顺利 解决 实际 问题 ， 我 们 不 得 不 想 出 一 个 更 加 续 密 的 函数 。 通 常 ， 人 们 可 
以 设计 出 各 种 各 样 的 方案 ， 每 个 方案 的 步 又 次 序 都 不 尽 相 同 。 有 些 很 快 就 能 找 
到 解决 办 法 ， 其 他 的 则 绕 了 远 路 。 此 时 ， 搜 索 程 序 的 性 能 取决 于 程序 员 正 确 选 
择 搜索 方案 的 能 

爬山 算法 。 表 1.2 中 的 伪 代 码 总 结 了 疏 山 算法 。 当 然 ， 细 节 部 分 取决 于 每 个 
人 设计 程序 的 风格 ,但 不 同 风格 的 代码 几乎 总 会 不 约 而 同 地 包含 一 些 经 典 的 函数 。 
其 中 一 个 是 比较 两 种 状态 ， 如 有 果 相 同 则 返回 真 ， 这 便 是 程序 确定 达到 终 态 与 否 的 
方法 。 另 一 个 函数 选取 一 个 特定 的 搜索 状态 ， 并 将 其 应 用 到 所 有 搜索 算 符 中 ， 因 
此 创造 了 一 套 完整 的 “ 子 状态 ”。 为 避免 无 限 循环 ,要 有 第 三 个 函数 来 检验 一 个 
状态 是 否 已 经 测试 过 了 ; 第 四 个 函数 则 负责 计算 给 定 状 态 距 终 态 的 距离 ， 第 五 个 
会 根据 计算 出 的 距离 分 类 “ 子 ” 状 态 ; 并 把 它们 放 在 列表 工 的 前 端 ， 最 后 一 个 函 


数 检验 状态 是 否 符合 终止 条 件 9。 



































R12 MURRA 
1. 创建 两 个 列表 , LA Lono KI, L 只 包含 初 态 ，L. 是 空 的 
2. 令 是 表 工 中 的 第 一 个 元 素 ， 并 与 终 态 进行 比较 ， 不 停 地 比较 直到 两 者 一 至 
3. 将 nn 应 用 到 所 有 可 用 的 搜索 算 符 中 ， 从 而 得 到 了 一 系列 新 的 状态 ， 去 除 表 工 ,中 已 经 存 
在 的 状态 ， 剩 余 的 状态 用 评估 函数 分 类 ， 并 置 于 表 工 的 前 端 
4. 将 n AR L PRB BIR Lon, R Loen PRE RL RAS 


5. 如 果 工 = 多， 则 停止 运算 并 报告 错误 ; 否则 ， 返 回 第 2 步 

























































































最 后 一 点 需要 注意 的 是 : 在 图 1.3 的 一 些 状态 下 ,没有 任何 “ 子 ” 状 态 可 以 
改进 “ 父 ” 状 态 ， 只 有 在 暂时 的 妥协 后 才能 得 到 一 个 低 值 的 d。 一 个 登山 者 也 可 








O 简单 来 说 ， 伪 代码 忽视 了 终止 条 件 ， 因 而 没有 达到 终 态 。 
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能 经 历 过 这 种 情况 : 有 时 他 不 得 不 横 穿 一 个 山谷 ， 才 能 继续 攀登 。 顺 便 提 一 下 ， 
这 个 方法 的 名 字源 于 登山 的 隐喻 。 


Pi 你 学 到 了 什么 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 人 工 智能 是 如 何 定义 搜索 问题 的 ? 我 们 如 何 理解 “搜索 空间 ”和 “搜索 算 符 ”? 

o 评估 函数 起 怎样 的 作用 ? 它 是 如 何 影响 假山 搜索 算法 的 ? 








1.3 WRF SPENE 


我 们 要 探索 一 个 具体 的 方法 ， 将 仆 山 法 运用 到 机 器 学 习 中 。 

礁 山 法 和 乔 尼 的 派 。 让 我 们 从 如 何 确定 乔 尼 喜 欢 哪 一 个 派 的 问题 人手。 输入 一 
系列 训练 样 例 ， 并 用 可 用 属性 描述 每 一 个 样 例 。 输 出 一 一 即 终 态 ， 是 一 个 布尔 表达 
A, 使 所 有 训练 集中 的 正 例 为 真 ， 负 例 为 假 。 这 个 表达 式 包含 了 属性 - 值 对 、 逻 辑 
运算 符 (连接 词 、 分 离 词 和 否定 ) 和 所 需 的 括号 。 用 评估 函数 衡量 特定 表达 式 在 训 
练 集中 的 错误 率 。 就 初 态 而 言 ， 任 何 随机 生成 的 表达 式 都 可 以 使 用 。 在 图 1.4 中 ， 
因为 超过 半数 的 正 训 练 样 例 是 圆 形 的 ， 所 以 我 们 选择 “shape =circle” (PARAS. 

至 于 搜索 算 符 (search operator) ， 一 种 方法 是 添加 连接 词 ， 图 1.4 中 也 给 出 了 
说 明 : 例如 ， 最 左边 的 子 结 点 用 [(shape = circle ) AND (filling - shade = dark ) ] 
( 见 图 1.4, 通常 用 “^” 表 示 AND) RET “shape = circle”。 注 意 ， 在 玩具 问题 
域 中 连接 算 符 生 成 了 多 少 种 不 同 的 表达 式 。 任 何其 他 属性 - 值 对 都 可 以 连接 
“shape = circle”。 因 为 剩余 4 个 属性 (BRE shape) 分 别 有 2、3、2、3 个 不 同 的 取 
值 ， 所 以 可 以 连接 到 “shape = circle” 上 的 条 件 的 总 数 为 2x3 x2 x3 =36°?。 或 
者 ， 像 最 左边 子 结 点 的 3 种 扩展 所 证 明 (ILE 1.4) 的 一 样 ， 我 们 也 可 以 添加 分 













































































日 图 1.4 只 展示 了 36 个 新 建 状态 中 的 3 个 。 





009 


010 


机 器 学 习 导 论 


离 词 。 其 他 算 符 的 例子 包括 “去 掉 一 个 连接 词 ”“ 去 掉 一 个 分 离 词 ” “加 上 一 个 否 
EW” “否定 一 个 条 件 ” ， 以 及 各 种 各 样 的 括号 调整 等 。 总 之 ， 有 几 百 种 的 搜索 算 
符 可 以 用 到 每 一 种 状态 及 其 产生 的 后 续 状 态 中 。 即 使 在 非常 简单 的 问题 域 中 也 难 
以 管理 。 














Q) shape=circle 


e=4/12 







Addition of (AND) 


shape=circle shape=circle shape=circle 
^ fill shade=dark fill size=thick ^ crust size=thick 


e=2/12 e=6/12 e=5/12 














Addition of (OR) 





(shape=circle (shape=circle (shape=circle 


^A fill shade=dark) ^ fill shade=dark) ^ fill shade=dark) 
V shape=triangle Y crust shade=dark | 全 V fill size=thin 
e=3/12 e=1/12 e=2/12 


























图 1.4 “W PMC Le ae 





数值 属性 。 存 “ 派 ”问题 域 中 ， 每 一 种 属性 取 一 些 离 散 值 中 的 一 个 值 ， 但 在 
实践 中 ， 一 些 属性 可 能 是 数值 。 例 如 ， 每 个 派 都 有 价格 ， 价 格 属性 的 值 在 连续 域 
中 。 那 么 搜索 会 有 什么 不 同 呢 ? 

为 方便 起 见 ， 假 设 只 有 两 种 属性 : 重量 和 价格 。 这 样 就 可 以 用 平面 上 的 一 个 
点 来 表示 每 个 训练 样 例 ， 如 图 1.5 所 示 。 读 者 可 以 发 现 ， 属 于 同一 分 类 的 样 例 倾 
向 于 分 布 在 一 个 特定 的 区 域 上 ， 用 来 划分 单个 区 域 的 曲线 从 数学 上 可 以 被 定义 为 
直线 、 圆 、 多 项 式 。 例 如 ， 图 1.5 的 右 侧 有 3 个 不 同 的 圆 ， 每 个 圆 都 可 以 充当 一 
个 分 类 器 : 在 圆 中 的 样 例 被 判断 为 正 ; 否则 判断 为 负 。 而 且 ， 在 这 些 分 类 融 中 ， 
有 些 分 类 需 性 能 更 优 。 那 么 ， 疏 山 法 是 如 何 找 出 这 些 最 优 的 分 类 需 的 呢 ? 下 面 是 
一 种 可 能 的 情况 。 
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图 1.5 左边 : 具有 连续 属性 的 域 ; 右边 : 一 些 “ 圆 形 ” 分 类 器 

数值 属性 域 中 的 谎 山 法 。 

初 态 (Initial State) 。 圆 心 和 半径 决定 一 个 圆 。 我 们 可 以 随机 挑选 一 个 正 例 作 
为 初 态 的 圆心 ， 并 使 最 初 的 半径 小 到 只 能 包含 它 本 身 这 一 个 样 例 。 

搜索 算 符 (Search Operators) 。 这 里 可 以 使 用 两 种 搜索 算 符 : 一 种 可 以 增 大 圆 
的 半径 ， 一 种 可 将 圆心 从 一 个 训练 样 例 换 成 男 一 个 。 在 前 一 个 搜索 算 符 中 ， 我 们 
还 需要 决定 将 半径 增 大 多 少 。 一 种 观点 认为 ， 增 大 圆 的 半径 到 仪 能 再 多 容纳 男 外 
一 个 训练 样 例 。 起 初 ， 圆 中 只 有 一 个 训练 样 例 。 第 一 步 过 后 ， 将 会 有 两 个 、 三 个 、 
四 个 等 。 

AAS (Final State) 。 圆 形 并 不 是 代表 正 域 的 理想 形状 。 在 这 个 问题 中 ,我 们 
找 不 到 完全 精确 的 形状 ， 并 且 我 们 更 愿意 将 终 态 定义 为 “能 正确 分 类 95% 训练 样 
例 的 分 类 器 ”。 

评估 函数 (Evaluation Function)。 正 如 之 前 所 提 及 的 ， 我们 选择 的 评估 函数 要 
使 错误 率 最 低 。 








Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 在 机 器 学 习 中 使 用 爬山 法 前 ， 我 们 必须 明确 有 关 搜 索 的 哪些 方面 ? 
e 哪些 搜索 算 符 可 以 用 在 “ 派 ” 域 和 “ 圆 ” 域 中 ? 如 何 定义 评估 函数 、 初 态 
和 终 态 ? 



































011 


012 


机 器 学 习 导 论 


1.4 分 类 器 的 性 能 








目前 为 止 ， 我 们 通过 比较 已 知 分 类 的 训练 样 合 的 类 别 和 分 类 器 给 出 的 样 例 类 
别 ， 来 衡量 错误 率 。 实 际 上 ， 我 们 的 目标 并 不 是 重新 分 类 那些 类 别 已 知 的 对 象 ， 
而 是 对 未 来 样 例 (future examples) 进行 分 类 ， 因 为 目前 我 们 对 其 类 别 一 无 所 知 。 
我 们 通过 实验 来 评估 分 类 器 的 预期 性 能 ， 并 且 有 必要 了 解 相应 的 评估 原理 。 

独立 的 测试 样 例 。 最 简单 的 做 法 就 是 将 预 分 类 样 例 分 
成 两 部 分 : WERE (training set) ， 用 来 归纳 分 类 器 ; M | 
WR (testing set) ， 用 来 评 佑 样 例 〈 见 图 1.6)。 在 “ 派 ” 
域 中 ， 有 12 个 预 分 类 样 例 ， 随 机 选择 8 个 来 归纳 分 类 噩 ， 
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1.6 WARE GIR 





并 检验 剩余 4 个 。 如 果 分 类 器 “ 猜 ” 对 了 3 个 测试 样 例 分 为 训练 集 和 
的 分 类 ( 错 了 1 个 ) ， 那 么 其 性 能 评估 为 75% 。 测试 集 


这 种 方法 虽然 看 起 来 很 合理 ， 但 存在 一 个 很 大 的 缺陷 : 随机 挑选 出 的 8 个 训 
练 样 例 可 能 不 足以 代表 所 属 的 概念 一 一 对 测试 集 〈 样 例 数 甚至 更 少 ) 也 是 如 此 。 
如 果 我 们 用 蓝 鲸 、 海 豚 和 鸭 嘴 兽 这 组 训练 样 合 来 归纳 哺乳 动物 的 定义 ， 那 么 可 能 
会 误导 学 习 者 以 为 哺乳 动物 住 在 海里 ( 蓝 鲸 、 海 豚 ) ， 有 的 还 会 下 蛋 OSES), 
这 个 观点 对 生物 学 家 来 说 是 没 办 法 接受 的 。 但 是 ， 选 择 另 一 组 训练 样 例 可 能 会 导 
致 选择 器 符合 最 高 标准 。 关 键 是 ， 不 同 的 训练 集 和 测试 集 的 划分 产生 不 同 的 分 类 
器 ， 同 样 对 未 来 性 能 的 评估 也 不 同 。 如 果 预 分 类 样 例 数 很 少 ， 那 么 这 种 现象 就 会 
更 加 明显 。 

如 果 我 们 想 比 较 两 种 机 器 学 习 算 法 归纳 出 的 产品 质量 ， 所 谓 的 随机 子 抽样 
(random subsampling) 可 以 缓解 无 代表 性 训练 集 的 问题 ?>。 方 法 是 多 次 随机 划分 样 
例 ， 分 成 训练 集 和 测试 集 ， 总 是 从 第 i 组 训练 集 归 纳 分 类 器 ， 并 在 第 i 组 测试 集中 测 
量 错 误 率 应 。 认 为 产生 较 低 应 平均 值 的 分 类 器 的 算法 更 优 一 一 它 考 虑 了 分 类 性 能 。 









































O 后 面 我 们 将 介绍 其 他 的 方法 。 


第 1 章 
一 个 简单 的 机 器 学 习 任务 








做 解释 的 需要 。 在 某 些 应 用 中 ， 只 给 每 一 个 样 例 确 定 分 类 是 不 够 的 ， 我 们 还 
想 知 道 这 样 分 类 的 理由 。 同 样 ， 如 果 一 个 外 科 医 生 仅 仅 用 “我 们 的 计算 机 是 这 样 
说 的 ”来 说 服 一 个 病人 接受 截肢 手术 ， 那 么 病人 是 不 会 同意 的 。 但 如 何 找到 一 个 
更 好 的 解释 呢 ? 
在 “ 派 ”问题 域 中 ， 我 们 可 以 从 布尔 表达 式 本 身 收集 到 很 多 信息 。 例 如 ， R 
们 或 许 注意 到 了 ， 形 状 为 正方 形 且 馅 是 白色 的 小 被 标记 为 员 。 结 合 这 个 观察 结 
和 其 他 知识 能 启发 我 们 : 深 色 的 馅 可 能 象征 着 深 红色 ， 这 是 乔 尼 喜欢 的 ; 或 者 外 
壳 是 圆 形 的 派 比 正方 形 的 派 口 感 更 松 脆 等 。 比 起 分 类 本 身 ， 人 们 更 想 要 用 这 种 方 
法 获得 知识 。 
比较 而 言 ， 在 “ 圆 ” 问 题 域 中 的 分 类 需 是 一 个 数学 表达 式 ， 它 接收 样 例 描述 
言 息 并 仅仅 反馈 类 标签 ， 像 一 个 “ 黑 盒 ” ， 这 未 必 是 缺点 。 在 一 些 应 用 中 ， 解 释 
只 是 一 种 补充 ; 在 其 他 的 情况 下 ， 则 显得 多 余 。 考 虑 这 样 一 个 分 类 器 ， 它 接收 了 
张 手写 文字 的 数字 图 像 ， 就 能 反馈 出 图 像 所 代表 的 字母 。 现 在 ， 用 户 想 要 使 用 
该 分 类 器 将 几 页 文本 转化 成 为 Word 文档 ， 但 不 会 纠结 于 每 个 字符 是 如 何 转化 的 。 
其 他 的 解决 方法 。 顺 便 说 一 句 ， 我 们 应 当 注 意 到 给 定 的 数据 可 以 归纳 出 很 多 
明显 完美 的 分 类 器 。 在 “ 派 ”问题 域 中 ， 训 练 集 有 12 个 样 例 ， 其 余 96 个 样 例 的 
分 类 未 知 。 数 学 家 会 告诉 我 们 有 2 个 分 类 咒 能 正确 标记 所 有 训练 样 例 ， 但 对 96 
个 未 知 样 例 的 标记 方式 却 各 不 相同 。 也 许 存在 一 个 分 类 需 可 以 正确 标记 未 来 的 每 
一 个 样 例 一 一 也 存在 另 一 个 分 类 顺 可 能 标 错 所 有 样 例 。 















































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

e 在 学 习 过 程 中 没 见 过 的 样 例 ， 我 们 如 何 估计 关于 它 的 错误 率 ? 

e 为 什么 测试 集 上 的 错误 率 通 常 高 于 训练 集 的 错误 率 ? 

e 给 出 一 个 域 的 例子 ， 分 类 器 必须 解释 自身 的 行为 ， 再 给 出 一 个 分 类 器 不 需 

要 解释 的 域 。 
e “可 以 正确 分 类 所 有 训练 样 例 的 分 类 器 数目 是 一 个 组 合 数 ”是 什么 意 轧 ? 
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1.5 可 用 数据 的 困难 





在 一 些 应 用 中 ,训练 集 是 手工 产生 的 : 专家 准备 一 个 样 例 ， 用 类 标签 标记 ， 
选择 属性 ， 并 明确 每 个 样 例 中 每 个 属性 的 值 。 在 其 他 问题 域 中 ， 过 程 是 计算 机 化 
的 。 例 如 ， 公 司 想 要 预测 员工 离开 的 意愿 。 他 们 的 数据 库 里 有 每 个 人 的 地 址 、 性 
别 、 婚 姻 状 况 、 职 位 、 加 薪 、 升 值 ， 还 有 员工 是 否 在 公司 任职 ， 如 果 不 在 ， 他 们 
是 哪 天 离开 公司 的 。 从 这 些 信息 中 ， 程 序 可 以 获得 属性 向 量 ， 如 果 给 定 的 员工 自 
上 次 数据 库 更 新 后 1 年 内 离开 公司 ， 则 标记 为 正 。 有 时 ， 属 性 向 量 能 自动 从 数据 
库 中 提取 ， 并 被 专家 标记 。 或 者 ， 样 例 的 一 部 分 可 以 从 数据 库 中 获得 ， 其 余 的 则 
手工 添加 。 通 常 ， 将 两 个 或 更 多 的 数据 库 结 合 起 来 。 诸 如 此 类 的 变量 其 数量 几乎 
是 无 限 的 。 但 不 论 样 例 来 自 何 处 ， 它 们 都 可 能 存在 一 些 缺 陷 ， 工 程 师 必 须 理解 这 
些 缺 陷 的 本 质 和 产生 的 后 果 。 

不 相关 属性 。 首 先 ， 有 些 属 性 十 分 重要 ， 另 一 些 则 不 是 。 当 乔 尼 真 的 很 喜欢 
深 红 色 的 馅 时 ， 这 种 喜好 不 会 被 厨师 的 鞋 码 所 影响 。 这 是 需要 考虑 的 问题 : 不 相 
X (irrelevant) 属性 增加 了 计算 开销 ， 甚 至 有 可 能 误导 学 习 者 。 那 么 我 们 如 何 避 
免 这 个 问题 呢 ? 

通常 是 无 法 避免 的 。 当 然 ， 在 一 些 手工 生成 的 问题 域 中 ， 专 家 应 该 知道 哪些 
属性 是 真正 起 作用 的 ,但 在 这 里 ， 和 情况 并 非 那 么 简单 。 因 此 ， 在 作者 的 “ 派 ” 域 
中 ， 他 已 经 尽 其 所 能 地 挑选 那些 他 认为 有 用 的 属性 。 但 由 于 不 确定 造成 乔 尼 口味 
的 真正 原因 ， 他 可 能 会 包含 一 些 他 认为 必要 的 属性 ， 但 不 能 保证 。 相 关 性 问题 在 
从 数据 库 中 提取 出 的 样 例 上 发 生得 更 加 频繁 。 数 据 库 产生 的 初衷 是 提供 获得 大 量 
言 息 的 渠道 一 一 通常 其 中 只 有 一 小 部 分 适用 于 学 习 任 务 。 至 于 是 哪些 部 分 我们 
不 得 而 知 。 

属性 缺失 。 相 反 地 ， 一 些 重要 的 属性 很 可 能 被 遗漏 。 考 虑 到 父母 的 经 济 条 件 ， 
乔 尼 可 能 对 价格 贵 的 派 有 偏见 。 价 格 属性 的 缺失 不 可 能 归纳 出 优良 的 分 类 右 ， 两 
个 样 例 ， 尽 管 可 用 属性 一 致 ， 但 “缺失 ”的 重要 属性 值 可 能 不 同 。 即 使 描述 相 
同 ， 一 个 样 例 被 判定 为 正 而 另 一 个 为 负 也 就 不 足 为 奇 。 当 出 现 这 种 情况 时 ， 我 们 









































































































































第 1 章 
一 个 简单 的 机 器 学 习 任 务 











称 训练 集 不 一 致 (inconsistent) 。 这 是 很 难 避 免 的 : 不 仅 专家 可 能 不 知道 价格 属性 
的 相关 性 ， 而 且 这 个 属性 本 身 可 能 就 是 未 知 的 。 

元 余 属 性 。 在 某 种 意义 上 ， 和 危害 最 小 的 是 那些 属性 值 可 从 其 他 属性 获得 的 宛 
余 属 性 。 如 果 一 个 数据 库 包含 了 一 个 患者 的 出 生日 期 和 年 龄 ， 那 么 年 龄 是 多 余 的 ， 
因为 它 可 以 通过 今天 的 日 期 减 去 生日 来 计算 。 幸 和 运 的 是 ， 多 余 属 性 比 不 相关 属 
和 缺失 属性 危害 要 小 。 

属性 值 噪声 。 因 为 不 可 靠 的 信息 来 源 、 糟 糕 的 测量 设备 、 拼 写 错 误 、 用 户 的 
含混 和 其 他 许多 理由 的 存在 ， 属 性 值 和 类 标签 通常 不 可 信 。 我 们 称 之 为 数据 受到 
各 种 各 样 的 噪声 (noise) 干扰 。 

随机 噪声 (stochastic noise) 是 随机 的 。 例 如 ,我 们 的 体重 在 一 天 中 并 不 恒 
定 ， 早 晚 的 读数 会 不 一 样 。 人 为 的 错误 也 会 有 影响 ， 因 为 没 时 间 测 量 患者 的 血压 ， 
偷懒 的 护士 仅仅 修改 了 以 前 的 读数 ， 当 成 今天 的 数据 草草 记 下 来 。 相 较 而 言 ， 系 
统 噪声 (systematic noise) 对 所 有 的 数值 的 影响 朝向 一 个 方向 ; 一 个 没有 校准 的 温 
度 计 的 读数 总 是 偏 低 。 在 随意 人 为 的 情况 下 ， 给 定 的 值 没有 任何 实际 意义 。 例 如 ， 
从 EEG 电极 松动 的 那 一 刻 起 ， 所 有 后 面 的 读数 都 为 0。 

类 标签 噪声 。 类 标签 也 面临 着 相同 的 问题 。 可 能 专家 推荐 的 标签 尚未 被 恰当 
地 记录 下 来 。 或 许 ， 一 些 样 例 恰 好 处 于 两 个 分 类 间 的 “灰色 地 带 ”， 所 以 无 法 正 
确 决定 其 分 类 标签 。 这 两 个 案例 都 是 随机 噪声 ， 后 者 可 能 只 影响 边界 样 例 。 类 标 
签 噪声 也 可 以 系统 化 : 内科 医生 可 能 不 愿意 确诊 一 种 稀有 的 疾病 ， 除 非 有 确 谱 的 
证 据 一 一 它 的 类 标签 更 倾向 于 为 负 。 最终， 在 自动 分 类 过 程 里 出 过 错 的 域 中 ,也 
会 遇 到 随意 人 为 分 配 类 标签 的 问题 。 

类 标签 噪声 可 能 比 属性 值 噪声 更 危险 。 因 此 ,在 “ 圆 ”问题 域 中 ， 一 个 位 于 
正 域内 部 的 样 例 ， 不 会 因 属 性 值 轻微 的 改变 而 改变 ， 只 有 边界 样 例会 “越界 ”。 
相 较 而 言 ， 类 标签 噪声 能 使 任何 样 例 无 效 。 
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P 1 
L 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
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有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 解释 下 列 几 种 属性 : 不 相关 、 宛 余 和 缺失 。 在 “ 派 ” 域 中 解释 每 种 属性 的 











含义 。 
e“ 不 一 致 的 训练 集 ” 是 什么 意思 ? 由 什么 原因 导致 的 ? 它 是 如 何 影响 学 习 
过 程 的 ? 


。 我 们 知道 的 噪声 有 哪些 种 类 ? 它们 的 来 源 可 能 是 什么 ? 


1.6 ”总结 和 历史 简 评 





© 从 包含 预 分 类 样 例 的 训练 集 上 归纳 学 习 是 研究 得 最 深入 的 机 器 学 习 
任务 。 

e 历史 上 ， 该 任务 被 映射 为 搜索 ， 即 人 们 能 够 提出 一 种 机 制 用 以 探索 行 之 有 
效 的 搜索 技术 ， 如 用 初 态 、 终 态 、 中 间 状 态 、 搜 索 算 符 和 评 佑 函数 来 定义 











的 爬山 法 。 
。 但 是 ， 机 械 地 搜索 不 是 最 终 的 解决 方法 ， 后 面 我 们 将 探索 更 有 用 的 
技术 。 





。 借助 预 分 类 测试 数据 可 以 评估 分 类 器 的 性 能 。 最 简单 的 性 能 标准 是 错误 
率 ， 即 分 类 需 错 误 分 类 的 样 例 所 占 的 比例 。 标 准 过 程 如 图 1.7 所 示 。 


学 习 

(e |) ee) a) 
应 用 
=m e 


图 1.7 训练 样 例 用 于 归纳 学 习 分 类 器 ， 分 类 
器 随后 被 用 于 分 类 未 来 的 样 例 


。 两 个 在 所 有 的 训练 集 上 都 可 以 正确 分 类 的 分 类 噩 ， 可 能 在 分 类 测试 集 时 有 
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显著 差别 。 


除了 低 错 误 率 ， 某 些 应 用 还 要 求 分 类 器 解释 这 么 分 类 的 理由 。 
训练 样 例 决定 归纳 学 习 出 的 分 类 需 的 质量 。 而 训练 样 例 的 质量 不 仅 取决 于 





它 的 样 例 选 择 ， 还 取决 于 描述 样 例 的 属性 。 有 些 属性 是 有 关 的 ， 男 外 一 些 


属性 














是 不 相关 或 多 余 的 。 很 常见 的 是 ， 关 键 属性 会 缺失 。 











e Jat 


值 和 类 标签 可 能 受到 随机 噪声 、 系 统 噪声 和 随机 失真 的 干扰 。 在 具体 





样 例 中 的 一 个 属性 值 可 能 是 未 知 的 。 


历史 简 
流行 。 但 几 
第 一 个 改进 


的 AQ Biz, OR EK ARSE, KYRA (Carbonell) 和 米 切 尔 共 同 编辑 了 论文 集 ， 


并 使 这 门 学 
还 有 许 

绍 最 全 面 的 

HE. 





FE, F 20 世纪 80 ~90 EIR, KOLE IER ENR RBMA F 
位 “创始 人 ”都 有 自己 的 独到 见解 。 米 切 尔 〈Mitchell) 通常 被 认为 是 
了 基于 搜索 方法 的 人 ; MEA eM EAR EK ARTE (Michalski) 提出 













































































科 有 了 长 足 的 发 展 。 他 们 构建 了 一 代 人 的 思维 模式 。 
多 其 他 的 搜索 算法 。 有 兴趣 的 读者 可 以 参考 人 工 智 能 的 书籍 ， 其 中 介 
也 许 是 拉 塞 尔 (Russell) 和 诺 维 格 (Norvig) ， 或 科 平 (Coppin) 的 

















1.7 巩固 你 的 知识 


下 面 的 
从 不 同 的 角 
帮助 读者 注 


练习 

















练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
意 到 那些 容易 被 忽视 的 细节 。 





1. 在 数字 滑 块 拼图 问题 中 ， 给 出 一 个 比 文中 评估 函数 更 优 的 函数 。 


2. All 


.8 展示 了 一 棵 搜索 树 ， 其 中 ， 每 一 个 结 点 代表 一 个 搜索 状态 ， 并 


标记 了 相应 的 评估 函数 值 。 息 山 搜索 算法 将 以 怎样 的 顺序 访问 这 些 


状态 ? 
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图 1.8 决定 启发 式 搜索 算法 访问 搜索 状态 的 顺序 ( “盒子 ”旁边 的 
数字 给 定 了 独立 搜索 状态 的 评估 函数 值 ) 





3. 在 “ 派 ” 域 中 ,假设 评估 函数 计算 的 是 正确 分 类 训练 集 样 例 的 比率 。 令 表 
1. 1 中 的 第 二 个 正 例 为 初 态 。 手 工 模拟 使 用 了 一 般 化 和 特殊 化 算 符 的 候 山 








算法 的 过 程 。 
4. 当 样 例 被 10 个 布尔 属性 描述 时 ， 问 题 域 中 的 样 例 空间 有 多 大 ? 分 类 器 的 
空间 有 多 大 ? 





1. 在 “ 派 ”问题 域 中 ， 所 有 分 类 顺 空 间 的 大 小 是 2”， 并 且 样 例 空 间 的 每 个 
子 集 可 以 用 一 个 不 同 的 分 类 器 表示 。 如 果 我 们 仅 允 许 属性 - 值 对 间 采 用 连 
接 词 的 分 类 需 ， 那 么 搜索 空间 将 缩小 多 少 ? 

2.“ 派 ”问题 域 中 可 能 有 哪些 噪声 ”这 些 噪声 可 能 源 自 于 哪里 ?” 还 有 哪些 问 
LEMAR A BI? 

3. 一 些 分 类 需 采 用 黑 盒 运行 模式 ， 不 会 提供 很 多 解释 。 这 便 是 “ 圆 ” 问 题 域 
中 的 情况 。 举 出 一 些 黑 盒 分 类 需 适 用 和 不 适用 的 问题 域 。 

4. 选择 一 个 你 认为 难以 描述 的 分 类 ， 例 如 ， 识 别 复杂 的 生物 对 象 CRY. SE 
鸟 等 ) 或 识别 一 种 音乐 流派 〈 播 滚 、 民 谣 、 锁 士 等 ) 。 建 议 列 出 描述 训练 
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样 例 的 属性 。 这 些 属 性 的 值 容易 获得 吗 ? 你 认为 在 本 童 讨论 的 问题 中 哪个 
属性 会 使 学 习 过 程 复 杂 化 ? 





上 机 实验 


1. 编写 一 个 使 用 爬山 算法 解决 数字 化 块 拼图 问题 的 程序 。 要 求 : 给 每 个 搜索 
状态 挑选 一 个 合适 的 代表 ， 编写 一 个 判断 是 否 为 终 态 的 模块 ， 并且 实 现 搜 
索 算 符 的 使 用 。 定 义 两 个 或 三 个 可 选择 的 评估 函数 ， 并 观察 它们 如 何 产 生 
顺序 不 同 的 搜索 步骤 。 

2. 编写 一 个 实现 1.3 节 中 “ 增 大 圆 ” 算 法 的 程序 。 要 求 : 创建 一 个 类 似 图 
1.5 中 二 维 样 合 的 训练 集 。 学 习 程序 将 运用 爬山 搜索 法 。 评 佑 函数 将 计算 
被 分 类 器 正确 分 类 的 训练 集 样 例 的 比率 。 思 考 下 列 搜索 算 符 : 中 增 大 / 减 
小 圆 的 半径 ; 外 使 用 不 同 的 训练 样 例 作 为 圆心 。 

3. 编写 一 个 程序 ， 实 现 描述 “ 乔 尼 喜欢 的 派 ”时 所 用 的 搜索 方法 。 要 求 : 定 
义 你 自己 的 一 般 化 和 特殊 化 算 符 。 评 佑 函数 使 用 从 训练 样 例 中 观察 到 的 错 
误 率 。 
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基于 已 知 属性 值 ， 预 测 一 个 样 例 的 类 别 的 最 早 尝 试 可 以 追溯 到 第 二 次 世界 大 
战 之 前 ， 相 对 于 计算 机 科学 的 发 展 ， 这 可 以 说 是 “史前 ”了 。 当 然 ， 在 那个 时 
代 ， 人 们 还 没有 使 用 “机 需 学 习 ” 这 一 术语 ， 但 是 其 工作 的 目标 与 本 书 所 要 实现 
的 目标 在 本 质 上 是 相同 的 。 

这 里 ， 求 解 问题 的 基本 策略 都 是 使 用 贝 叶 斯 概率 理论 ， 计 算 所 给 对 象 属于 各 
个 类 别 的 概率 ， 然 后 选择 概率 最 大 者 作为 对 这 个 样 例 所 属 类 别 的 预测 。 




















2.1 单 属 性 的 情况 





我 们 从 一 个 简单 的 以 至 于 不 太 现实 的 情形 开始 : 在 一 个 域 中 ， 每 个 样 例 都 可 
以 用 单一 的 属性 来 刻画 。 当 然 ， 在 这 一 域 建立 的 基本 理论 将 被 推广 并 应 用 到 更 为 
现实 的 域 当 中 。 

概率 。 用 第 1 章 的 “玩具 ”问题 可 以 很 容易 地 解释 一 些 基 本 概念 。 训 练 集合 
一 共 包 含 12 个 派 (Na =12) ， 其 中 6 个 是 正 类 样 例 (No 56), 剩余 的 6 个 是 负 
类 样 例 (N =6) 。 假 如 每 个 样 例 都 真实 地 反映 了 实际 情况 ,那么 乔 尼 喜欢 一 个 
随机 挑选 的 派 的 概率 是 50% : 




















N vos 6 
P( pos) = WO ETE 
all 


0.5 (2.1) 

现在 ， 我 们 仅 考 虑 派 的 一 个 属性 ， 如 馅 料 的 量 。 训 练 集 中 包含 了 8 个 有 厚 馅 
HII (Nna =8) ， 其 中 3 个 被 标记 为 正 类 (Nosna =3)。 这 意味 着 “在 给 定 是 
厚 馅 料 的 派 的 前 提 下 ， 一 个 样 例 属于 正 类 的 条 件 概 率 ” 是 37. 5% ， 这 恰恰 就 是 厚 


饮料 样 倒 中 正 类 样 例 的 相对 频率 所 暗示 的 : 











Ni 
P( pos | thick) = = = = 0, 375 (2.2) 


将 条 件 概 率 应 用 于 分 类 。 这 里 ,重要 的 是 ， 相 对 频率 只 在 给 定 属 性 值 的 派 上 


计算 得 到 。 在 同样 的 这 8 个 派 中 ，5 个 属于 负 类 ， 这 意味 着 P(neg | thick) => = 
o> 























0. 625, WE) P( neg | thick) >P(pos | thick) ， 我 们 可 以 得 出 结论 : 乔 尼 不 喜欢 厚 
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馅 料 的 派 的 概率 大 于 喜欢 厚 馅 料 的 派 的 概率 。 因 此 ， 分 类 器 将 所 有 厚 馅 料 的 派 标 
记 为 “ 乔 尼 喜欢 的 派 ” 的 负 类 样 例 看 起 来 是 有 道理 的 。 

注意 ， 因 为 在 计算 条 件 概率 P(pos | thick) 时 用 到 了 更 多 的 信息 ， 所 以 它 比 先 
验 概率 P(pos) 更 加 可 人 和信。 这 是 很 自然 的 。 例 如 ， 在 一 个 男女 数目 大 致 相同 的 托 
管 中 心 ， 我 们 期望 一 个 被 随机 挑选 的 孩子 是 男孩 的 概率 是 P(boy) =0.5, 但 是 当 
我 们 听 到 有 人 叫 这 个 孩子 “ 乔 尼 (Johnny)” 的 时 候 ， 这 个 期 望 会 有 所 提高 ， 因 为 
我 们 知道 很 少 有 女孩 会 叫 “ 乔 尼 ”。 这 就 是 P(boy | Johnny) > P(boy) 的 原因 。 

联合 概率 。 两 个 事件 同时 发 生 的 联合 概率 与 条 件 概 率 是 不 能 相互 混淆 的 。 务 
必 使 用 正确 的 记号 : 在 联合 概率 中 ， 各 项 是 用 逗号 分 隔 的 ， 如 P(pos，thick) ; 而 
在 条 件 概 率 当 中 ， 各 项 用 坚 线 分 隔 ， 如 PC pos | thick) 。 对 于 一 个 随机 挑选 的 派 ， 
P(pos, thick) 表示 一 个 样 例 是 属于 正 类 的 ， 而 且 是 厚 饮 料 的 概率 ， 然 而， 
P(pos | thick) 表示 在 所 有 厚 馅 料 的 派 中 正 类 样 例 出 现 的 概率 。 

一 个 具体 的 例子 。 图 2. 1 展示 了 以 上 这 些 术 语 。 长 方形 代表 了 所 有 的 派 。 正 





















































乔 尼 喜 欢 的 





图 2.1 先 验 概率 ，P( pos) = ÉM P( thick) =>; 条 件 概率 ， 
P( pos | thick) = 号 和 P( thick | pos) =; 联合 概率 ， 


P(pos, thick) =< 
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类 样 例 位 于 一 个 圈 中 ， 厚 饮料 的 派 位 于 另 一 个 圈 中 。 两 个 圈 的 交集 包含 了 3 个 同 
时 满足 这 两 个 条 件 的 样 例 。 有 一 个 派 这 两 个 条 件 都 不 满足 ， 因 此 它 位 于 这 两 个 圆 
圈 之 外 。 条 件 概 率 ，P(pos | thick) =3/8 ， 是 用 交集 的 大 小 除 以 厚 馅 料 的 派 的 集合 
大 小 计算 得 到 的 。 联 合 概 率 ，P( pos，thick) =3/12， 是 用 交集 的 大 小 除 以 整个 训 
练 集 的 大 小 计算 得 到 的 。 先 验 概 率 ，P( pos) =6/12， 是 用 正 类 样 例 集合 的 大 小 除 
以 整个 训练 集 的 大 小 计算 得 到 的 。 

从 联合 概率 计算 得 到 条 件 概 率 。 图 2. 1 告诉 我 们 ， 联 合 概率 可 以 由 先 验 概率 























和 条 件 概 率 计算 得 到 ， 即 P(pos，thick) = P(pos l thick) + P(thick) -也 。 4 = 
P(thick, pos) =P( thick | pos) + P( pos) eg 
i 6 12 12° 


注意 ， 联 合 概率 不 会 超过 相应 的 条 件 概率 的 值 ， 即 P(pos, thick) <P (pos | 
thick) ， 这 是 因为 联合 概率 是 用 条 件 概 率 乘 以 先 验 概率 得 到 的 ， 即 P(thick) ， 它 是 
不 超过 1 的 。 

男 一 个 需要 注意 的 事实 是 P(thick，pos) =P(pos，thick)， 因 为 它们 都 描述 了 
同样 的 一 件 事情 : 厚 馅 料 和 正 类 样 例 同时 发 生 的 概率 。 相 应 地 ， 前 面 两 个 方程 的 
左边 必定 相等 ， 这 意味 着 下 面 的 等 式 成 立 : P(pos| thick) + P(thick) = P(thick | 
pos) + P(pos)。 

这 个 等 式 两 边 同 时 除 以 P(thick) ， 我 们 就 得 到 了 著名 的 贝 叶 斯 公式 ， 它 也 是 
本 章 剩余 内 容 的 基础 : 









































P( pos | thick) = o miep Pipes) (2.3) 


如 果 我 们 推导 出 厚 馅 料 的 派 属 于 负 类 的 概率 的 类 似 公式 ， 则 有 : 











P(thick | neg) » P(neg) 
P( thick) 


通过 比较 式 (2.3) 和 式 (2.4) 得 出 的 值 ， 我们 可 以 知道 哪个 类 ，pos 或 
neg， 是 更 加 可 能 的 。 事 情 其 实 比 看 上 去 的 更 加 简单 : 既然 分 母 P(thick) 对 于 两 
个 类 (WAS) 都 是 相同 的 ， 我们 就 可 以 忽略 它 ， 直 接 选 择 分 子 较 大 的 类 。 

一 个 平凡 的 数值 例子 。 表 2. 1 中 给 出 了 由 贝 叶 斯 公式 得 到 正确 决策 结果 的 一 


P(neg | thick) = 





(2.4) 
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个 例子 。 为 了 简单 起 见 ， 这 个 例子 只 处 理 一 个 平凡 的 情况 ， 即 每 个 样 例 由 单一 的 
布尔 类 型 的 属性 来 描述 。 事 实 上 ， 这 个 单 属性 问题 是 如 此 简单 ， 以 至 于 我 们 可 以 
很 容易 地 从 训练 集中 直接 求 得 P(pos | thick) 和 P(neg | thick), 根本 不 用 借助 于 
强大 的 贝 叶 斯 公式 ， 这 也 使 得 验证 结果 的 正确 性 变 得 很 容易 。 
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表 2.1 描述 贝 叶 斯 决策 制定 的 原则 




















我 们 用 单个 属性 一 一 馅 料 的 量 ， 来 描述 每 一 个 训练 样 例 。 这 里 ， 馅 料 的 量 或 取 值 为 
thick 或 取 值 为 hin。 我 们 和 希望 机 器 能 识别 出 正 类 (pos) 。 下 面 是 8 个 已 知 的 训练 样 例 。 























exl ex2 ex3 ex4 ex5 ex6 ex7 ex8 





Size thick thick thick thick thick thick thick thick 





Class pos pos pos pos neg neg neg neg 



































每 个 属性 值 的 概率 和 每 个 类 别 的 概率 都 是 通过 它们 的 相对 频率 计算 得 到 的 。 例 如 ，8 
个 样 例 中 的 3 个 被 描述 为 馅 料 的 量 是 东 的 ， 因 此 ，P( thin) = 2, 








P(thin) ==, P(thick) ==, 
á 


P( pos) = P( neg) =£, 


8 
一 个 具体 的 属性 值 在 一 个 给 定 类 别 中 出 现 的 条 件 概率 也 是 由 相对 频率 决定 的 。 从 我 们 
的 训练 集 可 以 得 到 以 下 一 些 结果 : 


























Pl thin | pos) sA P( thick | pos) s 
4 4 
F 1 : 3 

P( thin | neg) = P( thick | neg) = 














基于 这 些 值 和 贝 叶 斯 公式 ， 我 们 可 以 得 到 如 下 的 条 件 概率 : 


P(pos | thin) = 





Z, P( pos | thick) =2, 
P( neg thin) =, P(neg thick) = 2, 
注意 : P(pos thin) + P(neg| thin) =P(pos | thick) + P(neg| thick) =1, 
基于 以 上 结果 ， 我 可 以 得 到 结论 : 因为 P(pos | thin) > P(neg| thin) ， 所 以 一 个 样 例如 
果 其 馅 料 的 量 是 薄 的 ， 则 它 就 应 该 被 分 到 正 类 中 ; 相反 ， 因 为 P(neg | thick) > P( pos | 
thick) ， 所 以 一 个 样 例如 果 其 馅 料 的 量 是 厚 的 ， 则 它 就 应 该 被 分 到 负 类 中 。 




















当 样 例 是 用 两 个 或 多 个 属性 描述 时 ,计算 概 率 的 方法 在 本 质 上 相同 ,但 我 们 
还 需要 至 少 一 个 其 他 的 技巧 ， 这 将 在 下 一 节 中 介绍 。 
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FMF ENT TA? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 如 何 从 条 件 概率 与 联合 概率 的 关系 推导 出 贝 叶 斯 公式 ? 
。 是 什么 使 得 贝 叶 斯 公式 如 此 有 用 ? 我 们 可 以 使 用 贝 叶 斯 公式 计算 什么 ? 
。 联合 概率 P(X, Y) 能 否 大 于 条 件 概率 P(X1Y)? 在 何 种 情形 下 ,P(X | 
Y) =P(X, Y)? 














2.2 离散 属性 值 的 向 量 














现在 ， 我 们 来 讨论 如 何 将 贝 叶 斯 公式 应 用 于 样 例 由 属性 向 量 如 xz = (x), x, 
，%) 所 描述 的 域 中 。 
多 类 问题 。 不 像 “ 派 ” 域 的 只 有 正 类 和 负 类 的 情况 ， 许 多 实际 的 应 用 都 包含 
不 止 两 个 类 。 如 果 c; 是 第 i 个 类 的 标签 ， 并 且 x 是 描述 我 们 要 进行 分 类 的 对 象 的 
向 量 ， 那 么 贝 叶 斯 公式 需要 有 如 下 形式 : 























P(xlce)Ple,) 

(x) 

分 母 对 于 每 一 个 类 都 是 相同 的 ， 我 们 可 以 选择 使 得 分 子 取得 最 大 值 的 类 一 一 
P(x1c)P(c,)。 这 里 的 P(e,) 可 以 很 容易 地 从 训练 集中 c 类 的 相对 频率 估计 得 
到 。 然 而 ， 估 计 P(x 1c,) 就 没有 那么 简单 了 。 

一 个 向 量 的 概率 。P(x c) 是 从 c; 类 中 随机 挑选 一 个 被 描述 为 向 量 * 的 样 例 
的 概率 。 它 的 值 可 以 用 相对 频率 来 估计 吗 ? 不 可 以 。 在 “ 派 ” 这 个 域 ， 样 本 空间 
包含 108 个 不 同 的 样 例 ， 其 中 训练 集 包 含 了 12 个 。 这 12 个 向 量 每 一 个 都 对 应 于 
一 个 训练 样 例 ， 而 其 他 的 向 量 ( 占 到 了 绝 大 多 数 ) 都 没有 对 应 的 样 例 。 如 果 x 在 
6 个 正 类 样 例 中 ， 则 它 的 相对 频率 是 P(x | pos) =1/6; 如 果 不 在 ， 则 它 的 相对 频 
率 是 P(x1 pos) =0。 任 何 训练 样 例 都 “天 然 地 赋予 ”了 类 别 标签 ， 而 训练 集 
合 之 外 的 样 例 ， 对 于 任意 的 c,，P(x1c) =0。 贝 叶 斯 公式 的 分 子 会 永远 为 0， 


P(e, |x) = 
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BU P(x1c)P(c,) =0。 这 样 ， 我 们 不 可 能 选择 出 最 有 可 能 的 类 。 很 明显 地 ， 我 们 
不 能 对 只 发 生 一 次 或 一 次 都 没有 发 生 的 事件 计算 其 概率 。 

笠 运 的 是 ， 这 对 于 单个 属性 是 没有 问题 的 。 例 如 ， 形 状 是 圆 形 (shape = 
circle) 在 正 类 样 例 中 出 现 了 4 次， 并 且 在 负 类 样 例 中 出 现 了 两 次 。 因 此 ， 相 应 的 
概率 就 是 P( shape = circle | pos) =4/6 和 P( shape = circle | pos) =2/6。 如 果 一 个 属 
性 仅 可 取 值 为 两 三 个 数值 ， 那 么 很 可 能 每 一 个 数值 都 在 训练 集中 出 现 了 多 次 。 因 
此 ， 这 为 概率 的 估计 提供 了 更 好 的 条 件 。 

相互 独立 的 属性 。 我 们 需要 的 是 将 各 个 属性 的 概率 组 合 在 一 起 以 确定 给 定 属 
性 向 量 在 给 定 类 别 的 概率 的 一 个 公式 一 一 PCzlc)。 只 要 属性 之 间 都 是 相互 独立 
的 ， 那 么 问题 就 简单 了 。 如 果 P(x, 1 c) 表示 类 别 。 中 的 一 个 样 例 的 第 i 个 属性 值 
Fe x; 的 概率 ， 那 么 从 c 类 中 随机 挑选 一 个 描述 为 向 量 x= (x,，x,，…，x,) 的 样 
例 的 概率 P(x1c) 可 以 由 式 (2.5) 计算 得 到 . 







































































Ple) = J] Pelo) (2.5) 
一 个 对 象 将 被 标记 为 类 c ， 如 果 这 个 类 使 得 如 下 形式 的 贝 叶 斯 公式 的 分 子 取 
得 最 大 值 ， 则 一 个 对 象 将 标记 为 类 。 
P(e) + [Pate (2.6) 
朴素 贝 叶 斯 假设 。 有 的 读者 可 能 会 认为 相互 独立 的 假设 不 是 很 合情合理 。 确 
X, 不同 变量 之 间 的 相互 影响 能 够 避免 吗 ? 一 个 物体 的 重量 随 着 其 大 小 的 增长 而 
增长 ,一 个 人 保健 的 情况 可 能 与 他 的 收入 相关 ， 一 个 物体 的 颜色 可 由 其 物理 属性 
得 知 。 总 之 ， 两 个 属性 不 以 任何 形式 相互 关联 的 域 是 很 少 的 。 无 怪 乎 上 面 描述 的 
方法 被 冠 以 一 个 不 受 恭维 的 名 字 一 一 朴素 贝 叶 斯 。 
然而 ， 实 际 的 情况 却 并 不 是 很 坏 。 违 背 “ 独 立 性 要 求 ”确实 导致 了 概率 预测 
的 不 准确 性 。 但 是 ， 这 并 不 意味 着 就 会 导致 错误 的 分 类 结果 。 记 得 吗 ? x 只 有 在 
P(zlci)P(c) 被 最 大 化 的 时 候 才 被 标记 为 cc。 如 果 一 个 类 的 计算 结果 是 0.8， 而 
另 一 个 类 是 0.2， 那 么 分 类 器 的 表现 并 不 会 因为 概率 估计 有 10% 或 20% 的 误差 而 
发 生 改 变 。 所 以 ， 当 要 求 各 属性 在 原则 上 都 相互 独立 时 ， 即 使 它们 并 不 是 真正 的 
满足 ， 我 们 依然 可 以 得 到 比较 理想 的 结果 。 
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不 能 做 相互 独立 假设 的 时 候 。 我 们 不 得 不 问 ， 当 变量 之 间 的 相互 独立 性 不 能 
被 忽略 的 时 候 怎么 办 ? 一 个 数学 家 的 第 一 反应 是 建议 采用 更 加 复杂 的 方法 来 估计 
P(x1c,)。 这 样 的 方法 确实 存在 ,但 它们 的 算法 复杂 度 会 随 着 属性 的 增多 而 增加 ， 
并 且 它 们 往往 包含 了 我 们 很 难 确定 的 参数 。 追 求实 际 的 工程 师 们 会 怀疑 这 样 做 所 
带 来 的 麻烦 与 好 处 可 能 是 相抵 的 。 




















一 个 更 实际 的 方法 是 通过 适当 的 数据 预 处 理 来 尽量 减少 属性 之 间 的 相关 性 。 











一 个 很 好 的 方法 就 是 将 元 余 的 





性 。 例 如 ， 如 果 属 性 集合 中 包含 了 年 龄 ，! 
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BERR, Late AK He Ce at) (eee PJ ME AY JE 

















素 贝 叶 斯 分 类 需 很 可 能 只 使 用 年 龄 一 个 属性 的 效 


我 们 也 可 以 尝试 将 两 个 或 3 个 属 怕 























1 生日 期 以 及 当前 的 日 期 ， 那 么 对 于 朴 
果 会 更 好 。 
E 用 一 个 人 工 设计 的 属性 来 代替 。 因 此 ， 在 


“ 派 ” 这 个 域 ， 烘 焙 师 可 能 告诉 我 们 馅 料 的 厚薄 和 外 壳 的 大 小 并 不 独立 ， 馅 料 厚 
的 派 外 完 较 薄 ， 反 之 亦 然 。 这 样 ， 我 们 就 可 以 将 这 两 个 属性 值 用 一 个 新 的 属性 来 


代替 ， 并 在 计算 上 大 获 神 益 。 例 如 ， 这 个 新 的 








两 个 取 值 : 厚 外 壳 薄 馅 料 和 薄 外 壳 厚 馅 料 。 
作为 最 后 的 策略 ， 如 果 我 们 不 想 用 多 变量 概率 估计 的 高 级 方法 ， 并 且 想 尽量 





避免 数据 预 处 理 ， 那 么 我 们 可 以 把 贝 叶 


介绍 的 其 他 机 需 学 习 范 式 。 


一 个 数值 例子 。 为 了 熟悉 朴素 贝 叶 
中 的 例子 。 这 里 ， 一 个 之 前 没有 见 过 的 派 所 
到 的 。 我 们 用 到 了 贝 叶 斯 公式 ， 









































属性 叫 “ 外 壳 馏 料 大 小 ” ， 它 仅 有 


里 
斯 分 类 需 一 起 放弃 ， 并 采用 本 书后 面 章节 





斯 分 类 的 机 制 ， 读 者 可 以 浏览 一 下 表 2. 2 





























属 的 类 是 基于 表 1. 1 中 的 训练 集合 得 


并 且 假 设 各 属性 之 间 是 相互 独立 的 。 


R22 贝 叶 斯 分 类 器 : 样 例 由 相互 独立 的 属性 向 量 来 描述 








为 了 确定 以 下 对 象 所 属 的 类 别 ， 我们 将 贝 叶 























斯 公式 应 用 于 表格 1. 1 的 训练 集 : 





x= [shape = square, crust - size = thick, crust - shade = gray, filling - size = thin, 


filling — shade = white | 














这 里 一 共有 两 个 类 : pos 和 neg。 计 算 过 程 是 为 了 分 别 求 出 每 个 类 对 应 的 贝 叶 斯 公式 的 
分 子 ， 然 后 选择 值 较 高 的 那个 类 。 在 训练 集中 ， 每 类 都 有 相同 数目 的 样 例 ， 即 P(pos) = 


P(neg) =0.5。 其 他 各 项 ， Tec. | pos) 和 TIP | neg) ， 均 可 以 由 下 面 的 条 件 概率 
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( 续 ) 
计算 得 到 . 
P( shape = square | pos) =1/6, P( shape = square | neg) =1/6 
P( crust - size = thick | pos) =1/6, P( crust — size = thick | neg) =1/6 
P( crust — shade = gray | pos) =1/6, P( crust — shade = gray | neg) =1/6 
P (filling ~ size = thin | pos) =1/6, P (filling ~ size = thin | neg) =1/6 
P (filling - shade = white | pos) =1/6, P (filling ~- shade = white | neg) =1/6 





基 





于 这 些 数值 ， 我 们 得 到 如 下 概率 : 








1 5 1 3 1 15 
P(x | pos) = le | pos) = C6 6 6 6 Ç 
= _2 5 2 1 2 40 
P(x | neg) = Pc: | neg) = e 6 6 6 e p 


计算 过 程 用 伪 代 码 的 形式 ， 


要 
1. 


3. 


.对 


为 P(x1 pos) <P(x1 neg), MARTH x 标记 为 负 类 。 


Mot 


DH 


在 了 表 2.3 中 。 


表 2.3 基于 朴素 贝 叶 斯 原理 分 类 
进行 分 类 的 样本 可 以 表示 为 x= (x, w, e 


,Xn)o 
对 于 每 一 个 x, 和 每 一 个 类 c, Ha 在 属于 < 类 的 训练 样 例 
件 概 率 P(x, | c) 。 
于 每 个 类 。 ， 执 行 下 面 两 个 步骤 : 
1) 估计 该 类 在 训练 集中 出 现 的 相对 频率 P(e) 。 


2) 用 属性 相互 独立 的 朴素 假设 来 计算 条 件 概 率 P(x | ci ) : 
P(xle,) = Tet, lc) 























F 每 











选择 使 得 P(c ) . TTP(x l e ) 的 值 最 大 的 类 。 


LA 
F 你 学 到 了 什么 ? 





的 相对 概率 来 计算 条 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 


有 任何 








困难 ， 请 回顾 本 节 的 相关 内 容 。 


。 在 何 种 情况 下 我 们 可 以 假设 各 个 属性 是 相互 独立 的 ? 这 个 假设 为 我 们 估计 


P(xle,) 带 来 了 什么 好 处 ? 
Hib Fx MAT BW AE 
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2.3 稀少 事件 的 概率 : 利用 专家 的 直觉 





在 第 一 个 近似 方法 中 ， 概 率 被 认为 与 相对 频率 是 一 致 的 ， 在 100 次 试验 中 观 
察 到 x 出 现 了 30 次 ,我 们 就 认为 P(x) =0.3。 这 是 我 们 在 前 面 章 节 中 所 做 的 。 

公平 地 讲 ， 然 而 ， 这 样 的 估计 只 有 在 大 量 实验 的 支持 下 才 可 以 被 信任 。 可 以 
想象 ， 一 个 硬币 被 抛掷 4 次 有 3 次 正面 朝 上 就 断定 P( heads) =0.75 是 仓促 的 ; 这 
个 实验 的 物理 原理 要 求 一 个 公正 的 硬币 应 该 有 50% 的 机 会 是 正面 朝 上 的 。 这 种 先 
验 期 望 能 用 来 帮助 我 们 改进 在 观测 次 数 不 充 分 的 情况 下 的 概率 估计 吗 ? 

RE, “É, 我们 可 以 使 用 m -估计 ”。 

m 一 估计 的 本 质 。 让 我 们 用 一 个 一 面 比 男 一 面 出 现 更 频繁 的 不 公平 的 硬币 来 
阐明 这 个 原理 。 在 没有 任何 干预 的 情况 下 ， 正 面 朝 上 的 先 验 期 望 是 rw =0.5, — 
个 辅助 参数 m 的 值 可 以 帮助 工程 师 说 明 对 于 类 别 预测 程序 有 着 怎样 的 信心 ， 也 就 
是 先 验 期 望 在 多 大 程度 上 是 可 信 的 ( 越 大 的 m 值 表示 越 可 信 ) 。 

让 我 们 用 ws 来 表示 硬币 被 抛掷 的 总 次 数 ， 用 Nu 表示 硬币 出 现 正面 朝 上 的 次 
数 。 将 这 些 值 与 先 验 期 望 值 和 置信 度 组 合 起 来 可 以 用 式 (2.7) 表示 : 
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(2.7) 


heads 


请 注意 ， H N eads = Na =0 时 上 式 退 化 为 先 验 期 望 7),,.。 相反 地 ， WRN, oaa All 
Nu 足够 大 以 至 于 m ms 和 普 项 可 以 忽略 不 计 ， 它 就 收敛 为 它 的 相对 频率 。 将 
Theads =O. 5 All m =2 IRA, 可 以 得 到 


P = heads + 2 x 0. 5 _ N heads + 1 
heads 一 Nu +2 a Nu +2 























概率 估计 的 一 个 示例 。 表 2.4 展示 了 5 次 实验 过 程 中 ， 如 上 的 值 是 如 何 逐 渐 被 
计算 出 来 的 。 读 者 可 以 看 出 ， 在 较 少 次 数 实 验 的 情况 下 ，m -估计 比 相对 频率 更 
符合 常理 。 因 此 ， 两 次 实验 后 ，m -估计 表明 有 75% 的 概率 是 正面 朝 上 ， 而 任何 
支持 相对 频率 的 不 得 不 承认 ， 基 于 前 两 次 的 实验 ， 反 面 朝 上 的 概率 为 0。 尽 管 如 
此 ， 随 着 实验 次 数 的 增加 ，m -估计 和 相对 频率 所 估计 的 值 将 趋 于 收敛 。 
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R24 对 于 每 次 连续 的 实验 ， 第 二 行 给 出 了 观察 到 的 结果 ， 第 三 行 是 正面 
出 现 的 相对 频率 ， 最 后 一 行 是 在 rsss =0.5，m =2 时 此 概率 的 m -估计 值 



































投掷 次 数 1 2 3 4 5 
结果 iE 正面 反面 正面 反面 
相对 频率 1. 00 1. 00 0. 67 0.75 0. 60 
m 一 估计 值 0. 67 0. 75 0. 60 0. 67 0. 57 


用 户 置 信 度 的 影响 。 让 我 们 深入 探讨 一 下 用 户 置信 度 m 的 影响 。 如 果 我 们 对 
比 下 述 两 种 不 同 的 设 定 一 一 左边 的 m =100 和 右面 的 m=1， 则 会 有 很 多 发 现 : 











m =100 的 情形 仅 允 许 有 大 量 的 证 据 可 获得 时 修改 先 验 概 率 的 估计 值 CN css > 
50，Nu 关 100) 。 对 比 之 下 , m=1 的 情形 允许 仅 有 几 次 实验 即 可 和 否定 用 户 的 观点 。 
有 超过 两 个 结果 的 域 。 尽 管 我 们 目前 只 讨论 了 有 两 个 输出 结果 的 域 ， 但 是 mm - 
估计 也 可 用 于 有 多 个 结果 的 域 。 投 毛 一 个 公平 的 骨 子 会 出 现 6 个 不 同 的 结果 ， 我 















































期 望 所 看 到 的 概率 是 这 样 的 : 例如 ， 三 点 的 是 rw = L, 令 m=6， 我 们 得 到 下 





fl 


| 





列 式 子 : 





Nitm N+6 NI+6 
再 一 次 地 ， 如 果 Ni 数 值 很 大 以 至 于 m=6 Mmr =1 可 以 被 忽略 ， 则 公式 将 





收敛 于 相对 频率 ;P= 。 如 果 我 们 不 想 这 种 情况 过 早 地 发 生 (或 许 是 因为 


我 们 对 于 这 个 先 验 估计 7,,。。 有 很 大 的 信心 )， 则 可 以 选择 一 个 更 大 的 m 值 以 阻止 
这 种 情况 发 生 。 

m 一 估计 的 限制 。 我们 不 应 该 忘记 m -估计 和 它 依赖 的 参数 相关 性 很 大 。 如 果 
我 们 使 用 不 现实 的 先 验 估计 ， 则 结果 将 会 令 人 失望 。 假定 7 =0.9，m =10， 则 
式 (2.7) 转变 成 如 下 形式 : 








N beads F 9 


P = 
heads Nu $ 10 
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当 我 们 用 此 公式 重新 计算 表 2.4 的 值 时 ， 发 现 5 次 实验 之 后 概率 被 估计 为 











P= ot = =0.8, 当然 ， 与 在 rr =0.5 时 比较 ， 它 更 为 不 合理 ， 后 者 获 


得 的 Pu =0.57。 我 们 或 励 读者 去 核实 当 减 小 m 的 值 时 情况 会 有 所 改善 。 

数学 合理 性 。 我 们 做 最 后 一 个 点 评 。 数 学 家 们 强调 所 有 的 可 能 事件 的 概率 总 
和 应 为 1: 如 果 一 个 实验 有 六 个 不 同 的 结果 ,已 是 第 i 个 结果 的 概率 , 则 3 P, = 1。 
很 容易 核实 , 式 (2.7) 对 所 有 的 m 值 都 满足 这 一 条 件 。. 假 定 我 们 在 处 理 一 个 只 有 两 
种 结果 的 掷 硬币 域 ,如 果 先 验 期 望 值 相 加 等 于 1(rnen + Tras = 1) ,然后 给 定 Ni + 
Nas = Nu, 则 有 如 下 推导 : 























N heads +m T heads N aiis +m T lails 


P +P. = 
heads tails 
Ny +m Nyy +m 





_ Ni + Nais T M( Treads + Traits ) 
Ny +m 


有 兴趣 的 读者 会 很 容易 地 将 其 推广 至 任意 有 限 个 的 类 。 


= 1] 








P 


$i GNF 到 了 什么 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 在 什么 情况 下 相对 频率 不 适合 用 于 预测 离散 的 概率 ? 
© EX (2.7) 中 参数 m 有 什么 影响 ? 在 什么 情况 下 你 更 倾向 于 m 取 值 大 一 
， 什 么 情况 下 更 倾向 于 小 的 m 值 ? 
© ER (2.7) 中 先 验 估计 mieuw 有 什么 影响 ? m -估计 的 可 信 度 是 如 何 被 不 
切实 际 的 miss 值 所 影响 的 ? 








2.4 如 何 处 理 连续 属性 











目前 为 止 ， 我们 仅 考 虑 了 离散 的 属性 ， 通 过 相对 频率 或 m -估计 来 估计 它们 
的 概率 。 然 而 ， 这 还 远 远 不 够 。 在 许多 应 用 中 ， 我 们 所 遇 到 的 属性 〈 如 年 龄 、 价 
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格 或 体重 ) 是 从 连续 域 中 取 值 的 。 

















这 时 候 ， 相 对 频率 则 不 实用 。 虽 然 很 容易 确定 一 个 工程 专业 学 生 是 男性 的 概 





率 是 P，=0.7， 但 是 这 个 学 生 的 体重 为 184. 5Ib (11b =0. 453kg) 的 概率 却 不 能 
易 地 给 出 ， 因 为 体重 可 以 取 的 值 有 无 限 多 个 ， 每 一 个 的 概率 都 是 无 穷 小 。 这 种 情 
况 下 该 怎么 办 ? 











损 
样 例 ， 





离散 化 连续 属性 。 一 种 可 能 的 方法 是 离散 化 。 这 个 最 简单 的 “技巧 ”会 把 某 
属性 的 原始 域 一 分 为 二 。 例 如 ， 把 年 龄 属性 蔡 换 为 布尔 属性 , “ 老 ” 对 应 于 年 龄 
大 于 60 为 真 ， 否 则 为 假 。 然 而 ， 有 一 部 分 可 用 信息 会 丢失 : 一 个 人 或 许 是 “ 老 ” 
的 ， 但 我 们 将 不 再 知道 他 有 多 “ 老 ”， 也 不 知道 一 个 “ 老 ” 人 是 否 比 另 一 个 “ 老 ” 
人 更 “ 老 ”。 

如 果 把 原始 域 分 成 许多 区 间 ， 而 不 是 两 个 ,如 (0，10]，…，(90，100] ， 这 种 












































会 得 到 缓解 。 假 定 我 们 对 应 于 每 一 个 区 间 都 有 一 个 独立 的 格子 ， 对 于 每 个 训练 





















































若 它 的 年 龄 值 落 在 第 i 个 区 间 中 , 则 把 一 个 小 黑 球 放 进 第 i 个 格子 中 。 
完成 这 些 之 后 ,我们 会 得 到 图 2. 2 描述 的 状况 。 图 的 上 半 部 分 展示 了 这 些 并 排 
bl b b bs bs be b bs 
p(x) 





图 2.2 ”一 个 简单 的 离散 化 方法 :将 每 一 个 子 区 间 表示 为 一 个 独立 的 格子 ; 
下 半 部 分 展示 了 各 个 子 区 间 上 的 直方 图 





O 我 们 这 里 假定 100 是 在 训练 集中 观测 的 最 大 值 。 另 外 ， 我 们 的 背景 知识 也 告诉 我 们 
给 定 属性 的 值 不 会 超过 100。 
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放置 的 格子 ,下 半 部 分 展示 了 以 下 述 方式 创建 的 一 个 分 段 常 函数 ;如 果 N 是 这 个 训 
练 集 的 大 小 ,N; 是 第 i 个 格子 里 的 小 球 个 数 ,那么 在 第 i 个 区 间 里 的 常 函 数值 即 为 





一 一 在 第 i 个 格子 里 面 的 小 球 的 相对 频率 。 因 为 在 这 个 分 段 常 函数 之 下 的 面积 是 





N, 
AN = 1, 这 个 方法 可 以 用 来 估计 一 个 值 落 入 给 定 的 区 间 的 概率 ， 而 不 是 一 个 具 
体 的 年 龄 值 的 概率 。 


概率 密度 函数 。 如 果 这 个 构造 的 阶梯 函数 看 起 来 过 于 粗糙 ， 假 如 在 每 个 格子 
里 的 小 球 数 又 是 足够 用 于 可 靠 的 概率 估计 的 ， 我 们 可 以 通过 把 原始 域 分 得 更 细 从 
而 有 更 多 区 间 的 办 法 来 对 它 进 行 微调 。 如 果 这 个 训练 集 无 限 大 ， 那么 理论 上 说 ， 
我 们 可 以 继续 减 小 区 间 的 长 度 直到 它们 变 成 无 限 小 。 这 种 填 格 箱子 训练 的 结果 将 
不 再 是 一 个 阶梯 函数 ， 而 是 一 个 连续 的 函数 p(x) ， 如 图 2.3 所 示 。 对 它 的 解释 和 
它 被 创造 出 来 的 方式 一 样 : p(x) 值 越 大 ， 说 明 有 很 多 样 例 的 年 龄 值 接近 于 %; 相 
反 地 ,p(x) 值 越 小 ， 说 明 在 x 附近 的 年 龄 值 越 少 。 这 就 是 我 们 称 p(x) 为 概率 密 
度 函 数 的 原因 ， 通 常 为 了 避免 描 口 ， 我 们 更 倾向 于 使 用 它 的 首 字母 缩写 PDF, 





























PO) 高 斯 钟 形 函数 

















P a b age 


A243 当 使 用 概率 密度 函数 的 时 候 ， 我 们 用 概率 密度 函数 下 方 相 
对 面积 的 大 小 来 确定 xe [a, b] 的 概率 





让 我 们 注意 一 下 表示 方法 。x 的 离散 概率 是 用 大 写字 母 P(x) 来 表示 的 ， 而 
在 x 处 的 概率 密度 函数 是 用 小 写字 母 p(x) 来 表示 的 。 如 果 我 们 想 要 指出 这 个 概 
率 密度 函数 是 唯一 的 、 来 自 于 第 co 类 的 样本 ， 则 用 一 个 下 标 来 表示 ， 即 pP. (x) 。 

连续 属性 的 贝 叶 斯 公式 。 概 率 密度 函数 的 一 个 好 处 就 是 它 让 我 们 即便 是 在 连 
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续 属 性 的 情况 下 也 可 以 使 用 贝 叶 斯 公式 。 我 们 只 需 用 p, (x) 蔡 代 条 件 概率 
P(x1c;)， 用 p(x) RC P(x) 即 可 。 让 我 们 从 被 分 类 对 象 仅 由 单一 的 连续 属性 
x 来 描述 的 这 一 平 几 的 现象 开始 。 这 时 ， 贝 叶 斯 公式 有 如 下 形式 : 


P(x) + P(c) 
p(cilx)= p(x) (2.8) 


XE, P(c) 由 训练 集 里 的 第 o 类 的 相对 频率 估计 得 到 ,p(x) 是 从 所 有 训 
练 样本 中 得 到 的 概率 密度 函数 ，p, (x) 是 从 训练 集中 属于 第 c 类 的 样本 得 到 的 概 
率 密度 函数 。 

再 次 说 明 ， 分母 可 以 被 忽略 ， 因 为 它 对 任何 类 来 说 都 是 相同 的 值 。 分 类 器 简 
单 地 为 每 个 类 计算 分 子 的 值 ，p, (x) P(c,)， 然 后 将 对 象 标记 为 取得 最 大 乘积 
的 类 。 

重新 审视 朴素 贝 叶 斯 。 当 面 对 更 加 现实 的 情况 ， 即 样 例 由 属性 向 量 来 描述 ， 
我 们 会 利用 像 以 前 一 样 相同 的 “技巧 ”: 做 所 有 属性 相互 独立 的 假设 。 假 如 我 们 
遇 到 一 个 被 描述 为 zx = (wi ,…,x,) 的 样 例 , 在 x 处 的 概率 密度 函数 可 以 用 各 属性 的 
乘积 来 近似 表示 : 





















































p(x) = TD ptm) (2.9) 

一 位 统计 学 家 会 给 出 理论 上 更 加 完善 的 公式 ， 然 而 高 度 的 复杂 性 往往 并 不 能 

得 出 让 人 满意 的 结果 。 一 方面 ， 我 们 可 能 会 对 不 精确 的 数字 做 精确 的 计算 ; 另 一 
方面 ， 技 术 越 复杂 ， 公 式 被 错误 使 用 的 危险 程度 也 越 高 。 








Fi 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 
。 概率 密度 函数 (PDF) 是 什么 ? 在 贝 叶 斯 分 类 的 情况 下 它 可 以 帮助 我 们 做 
什么 ? 
© 解释 可 以 帮助 我 们 获得 概率 密度 函数 的 非 正 式 定义 的 离散 化 机 制 。 
e 在 含有 和 连续 属性 的 域 中 ， 贝 叶 斯 公式 会 发 生 怎样 的 变化 ? 我 们 如 何 估计 各 
项 的 值 ? 
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2.5 高 斯 钟 形 函 数 : 一 个 标准 的 概率 密度 函数 


近似 计算 概率 密度 函数 的 方法 是 用 前 边 章节 讲 的 离散 化 技术 。 此 外 ,我 
们 还 可 以 利用 已 知 的 可 以 用 于 许多 实际 情形 的 标准 化 模型 。 在 这 些 模型 中 用 的 最 
广 的 ， 可 能 就 是 以 德国 伟大 的 数学 家 命名 的 高 斯 函数 。 
描述 它 的 图 形 和 公式 。 图 2. 3 中 的 曲线 是 一 个 例子 ， 它 的 形状 呈 钟 形 ， 因 此 
许多 人 把 它 叫 作 “ 钟 形 函 数 ”"。 艺 数 的 最 大 值 在 均值 处 达到 ， 即 x =, TRY Hee 
随 着 x 5 u 的 距离 的 增加 逐渐 向 下 倾斜 。 对 于 体温 这 样 的 变量 ， 它 的 概率 密度 的 
最 大 值 在 x = 99.7 下 附近 取得 ， 有 理由 相信 高 斯 汝 数 是 一 个 很 合适 的 概率 密度 
模型 。 






























































用 数学 方法 表示 ， 高 斯 函数 可 以 由 式 (2. 10) 定义 : 
p(x) =k -e ™ (2. 10) 

这 里 e 是 自然 对 数 的 底 。 

参数 。 注 意 到 ， 由 于 指数 项 是 负 的 ， 因 此 x My 之 间 的 差异 越 大 ， 指 数 项 的 
分 子 也 越 大 ， 那 么 p(x) 的 值 就 越 小 。 分 子 (* -4)” 是 平方 项 ， 是 为 了 确保 在 均值 
4 两 侧 和 斜率 是 以 相同 的 值 下 降 的 ， 也 就 是 说 曲线 是 对 称 的 。o” 是 一 个 被 称 为 方差 
的 参数 ， 它 控制 了 倾斜 的 程度 。 大 的 方差 意味 着 对 x 和 之 间 的 距离 有 较 小 的 敏 
感性 ， 因 此 是 一 个 相对 比较 平 的 钟 形 曲 线 ; 反之 ， 小 的 方差 定义 了 一 个 较 窗 的 钟 
形 曲 线 。 

的 作用 是 保证 概率 论 要 求 的 钟 形 函 数 下 方 的 面积 为 1。 相 对 容易 证 明 , k 取 
式 (2.11) 给 出 的 值 时 恰好 满足 这 个 条 件 : 





























(2.11) 


设置 参数 值 。 为 了 在 实际 应 用 中 近似 p, (x) 时 使 用 这 个 模型 ， 我 们 仅 需 要 估 
计 它 的 两 个 参数 的 值 : u 和 o?。 这 是 很 容易 的 。 假 如 在 训练 样本 中 有 m 个 来 自 于 
类 ， 如 果 x 是 第 i 个 样本 给 定 属性 的 属性 值 ， 那 么 均值 和 方差 可 以 分 别 由 式 
(2.12) 和 式 (2.13) 计算 得 到 . 
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WW=— x, (2.12) 


m i=! 


1 m 5 
o =—— È (a-u)? (2. 13) 
m — |i=1 


























简单 来 说 ， 高 斯 函数 的 中 心 是 观察 到 的 训练 样 例 的 属性 值 的 算术 平均 ， 而 
方差 是 由 x; 入 的 差 的 平方 的 平均 值 计算 得 到 的 。 注 意 ， 在 计算 方差 时 ， 正 如 我 
们 期 望 的 ， 我们 用 m -1 来 除 求 和 项 ， 而 不 是 m。 这 样 做 的 目的 是 为 了 弥补 凡 本 号 
也 是 估计 得 到 的 这 一 事实 。 因 此 ， 方差 应 该 比 用 m 除 求 和 项 要 上 略微 大 一 点 。 当 
然 ， 这 只 是 在 训练 集 比较 小 的 时 候 成 立 。 对 于 大 的 m,，m -1 和 m 的 差别 完全 可 以 
忽略 不 计 。 





















































P 
Hi 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 给 出 一 个 概率 密度 函数 服从 高 斯 分 布 的 连续 随机 变量 的 例子 。 
哪些 参数 定义 了 钟 形 函 数 ? 我 们 如 何 从 训练 集中 得 到 它们 的 值 ? 
如 何 及 为 什么 对 钟 形 函数 进行 标准 化 ? 








2.6 用 高 斯 函数 的 集合 近似 概率 密度 函数 








虽然 在 许多 实际 应 用 中 钟 形 函 数 是 近似 概率 密度 函数 的 一 个 很 好 的 机 制 ， 但 
它 并 不 是 万 能 的 。 一 些 变 量 并 不 遵循 它 的 分 布 ， 如 考虑 一 组 由 小 学 生 和 他 们 的 父 
母 混合 起 来 的 人 的 体重 的 分 布 。 如 果 我 们 用 离散 化 的 方法 来 构建 概率 密度 函数 ， 
则 会 观察 到 两 个 峰值 : 一 个 对 应 于 孩子 ， 另 一 个 对 应 于 成 人 。 如 果 父 亲 们 的 体重 
分 布 在 一 个 比 母 亲 们 的 体重 较 高 的 均值 周围 ， 则 可 能 出 现 3 个 峰值 ; 如果 这 些 家 
庭 来 自 于 不 同 的 种 族 ， 则 可 能 出 现 更 多 的 峰值 。 

合 高 斯 函数 。 毫 无 疑问 地 ， 一 个 单一 的 钟 形 函 数 会 有 表示 不 准确 的 情况 。 
但 是 ， 如 果 我 们 把 两 个 或 更 多 个 组 合 到 一 起 呢 ? 如 果 我 们 知道 样 例 的 不 同 来 源 ， 
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则 可 以 对 每 个 数据 源 分 别 用 一 个 高 斯 函数 来 表示 ， 然 后 把 这 些 高 斯 函数 组 合 起 来 。 
这 样 可 以 解决 我 们 的 问题 吗 ? 

一 个 诚实 的 答案 是 ,“ 是 的 ,在 这 种 理想 的 情况 下 ” 。 但 是 ， 实 际 上 ， 有 关 不 
同 来 源 的 现实 知识 是 很 难 获 得 的 。 一 个 更 好 解决 方案 是 将 体重 值 随机 地 分 为 许多 
组 。 在 最 极端 的 情况 下 ， 我 们 甚至 可 以 将 每 个 样 例 视 为 它 自 己 的 一 个 分 组 ， 然 后 
把 这 个 样 例 的 体重 值 标识 为 高 斯 中 心 ， 从 而 (对 于 m 个 样 例 ) 可 以 得 到 m 个 钟 形 
函数 。 

结合 它们 的 公式 。 假 设 我 们 想 要 近似 连续 属性 % 的 概率 密度 函数 。 如 果 我 们 
Hu: 来 标记 x 在 第 i 个 样 例 中 的 值 ， 那 么 概率 密度 函数 可 以 用 m 个 函数 的 和 来 
近似 : 






























































p(x) =k De (2. 14) 
像 之 前 那样 ， 这 里 的 归 一 化 常数 有 ， 是 为 了 确保 函数 曲线 下 方 的 面积 是 1。 当 
按照 式 (2.15) 计算 时 ， 这 个 目标 可 以 实现 ; 
1 


(Qn) io” 
数学 家 告诉 我 们 ， 如 果 m EEK, IÈ (2.14) 可 以 任意 准确 地 近似 那个 概率 
描述 这 一 点 。 图 2. 4 用 一 个 包含 m =3 个 样 例 的 训练 集 阐 明了 这 个 方法 ,属性 








(2.15) 





洋 














钟 形 函 数 ， 每 个 都 分 别 以 3 个 点 中 的 一 个 为 中 心 ， 方差 都 取 1 (o =1); 下 面 的 
一 幅 图 显示 了 将 式 (2.14) 和 式 (2.15) 放 在 一 起 而 组 成 的 概率 密度 函数 ， 密 度 
分 别 为 =0.4, m =0.5 Mu, =0.7, MHo’ =1: 











— 4-04) — G-05)* 一 (2-0.7) 
e re ~ +e — | 


p(x) -一 一 . | 
V(27) 

具体 的 参数 值 的 影响 。 这 样 得 到 的 概率 密度 函数 的 实用 性 〈 如 贝 叶 斯 公式 的 
成 功 使 用 ) 取决 于 o? 的 选择 。 在 图 2.4 中 ,我 们 用 了 o? =1， 但 对 于 它 在 将 来 的 
应 用 中 是 否 可 用 是 没有 保障 的 。 为 了 能 够 进行 适当 的 调整 ， 我 们 需要 了 人 解 它 是 如 
何 影响 组 合 起 来 的 概率 密度 函数 的 形状 的 。 
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性 x 的 值 组 成 的 概率 密度 函数 : pw, = 0.4、 


图 2.4 由 如 下 3 个 样 例 的 属 


了 有 贡献 的 3 个 高 斯 函数 ， 下 


边 一 幅 图 展示 了 组 合 之 后 的 效果 ; Fo =1 


边 


3 幅 图 展示 


0.5 和 pu; =0.7; 上 边 


Mı = 
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今 查 高 斯 公式 ， 我 们 意识 到 一 个 很 小 的 o” 值 会 造成 对 x Alu, 之 差 的 很 大 的 敏 
感度 ; 单个 的 钟 形 函 数 会 变 “ 罕 ”， 生 成 的 概率 密度 函数 会 有 多 个 延伸 的 “ 谷 ” 
分 割 成 的 陡峭 的 峰 。 相 反 地 ， 一 个 高 的 er- 的 结果 是 一 个 几乎 平坦 的 概率 密度 函 
数 。 为 了 找 一 个 这 两 个 极端 的 折 中 ， 如 果 我 们 使 得 c” 依赖 于 样 例 之 间 的 距离 ， 则 
会 得 到 比较 好 的 结果 。 

最 简单 的 解决 方案 是 取 c” = Mae -Non， 这 里 ws 和 An 分 别 是 w; 的 最 大 值 和 最 
小 值 。 如 果 你 觉得 这 个 方法 太 草 率 ， 则 可 以 考虑 用 样 例 数 归 一 化 这 个 差 值 : o? = 









































高 斯 成 分 变 窗 。 最 后 ， 在 某 些 域 ， 我 们 可 能 会 希望 每 一 个 有 贡献 的 钟 形 函 数 都 有 
一 个 自己 的 方差 .而且 是 与 离 它 最 近 的 一 个 其 他 的 高 斯 函数 的 中 心 的 距离 成 比例 
的 。 然 而 ， 在 这 种 情况 下 ， 我 们 就 不 能 再 用 式 (2.15) 来 设置 的 值 了 。 

一 个 数值 例子 。 表 2.5 中 的 例子 描述 了 包含 一 个 小 的 训练 集 和 一 个 待 分 类 向 
量 的 具体 实例 的 整个 执行 过 程 。 我 们 鼓励 读者 阅读 这 个 例子 的 所 有 细节 ， 以 清楚 
将 公式 放 在 一 起 的 方式 。 也 请 参考 图 2.5 中 的 图 示 。 
































表 2.5 将 朴素 贝 叶 斯 应 用 于 有 3 个 连续 属性 的 域 





























假设 我 们 给 定 了 一 个 包含 6 个 样 例 的 训练 集 : ex, ，…，exs， 每 个 样 例 都 由 3 个 属性 来 
描述 : at,, at,, atzo 
样 例 at, at, at; 类 别 
ex, 3.2 2.1 2.1 pos 
ex 5.2 6.1 7.5 pos 
ex; 8.5 1.3 0.5 pos 
eX, 2.3 5.4 2.45 neg 
ex, 6.2 3.1 4.4 neg 
CX 1.3 6.0 3.35 neg 

















利用 贝 叶 斯 公式 ， 找 到 x = (9, 2.6, 3.3) 最 可 能 的 类 别 。 
我 们 的 策略 是 来 估计 pw(z). P(pos) 和 pe(z) + P(neg) , WHE!) P( pos) = 
P(neg) ， 如 果 pw(xz) >pus(xz) ， 则 简单 地 用 pos 来 标记 x， 否 则 用 neg。 构 建 概 
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概率 ; 贝 叶 斯 


( 续 ) 





率 密度 函数 的 时 候 ， 我们 基于 属性 相互 独立 的 假设 。 由 2. 2 节 可 知 : pox) = 





Pye (ati) * Pps (ata) * Pps (ae) Fp (XxX) =p, Ati) * pre Cata) * Pag als)o 
等 号 右边 的 项 是 由 式 (2.14) 得 到 ， 这 里 o =1, m=3, 14MH, k= 
1/vV(27) 。 这 样 ， 这 些 项 中 的 第 一 项 ， 我 们 有 : 

















i e70 5l - 3.2)" $e oats 5.2) +e 
注意 ， 在 正 类 样 例 中 ，at, WEDI Au, =3.2, m =5.2 Mu, =8.5, WA 
表达 式 中 的 指数 项 。 函 数 剩余 的 5 项 可 以 类 似 得 到 ， 图 2.5 的 最 右 一 列 画 出 了 
它们 。 
将 x 的 坐标 ， 即 at， =9, at, =3.6 Flat, =3.3, (LAER, 可 得 


a ol 


Ppos ( atı )= 


Pps (%) = 0.0561 x 0.0835 x 0. 0322 = 0. 00015, pss (%) = 0.0023 x 0.0575 x 


0. 1423 =0. 00001, 
网 察 到 p(x) >p,.(x) ， 因 此 我 们 用 类 别 pos 来 标记 x。 





样 例 1 样 例 2 样 例 3 属性 1: 合成 的 
r r r 7 r r 





属性 1 











属性 3 





























u=2.1 u=7.5 u=0.5 


图 2.5 为 正 类 和 负 类 分 别 合成 概率 密度 函数 (Wo =1) ; 每 一 行 代表 了 一 个 属性 ， 而 
左边 3 列 每 一 列 都 代表 了 一 个 样 例 ; 最 右 一 列 显示 的 是 合成 的 概率 密度 函数 
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属性 1: 合成 的 
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图 2.5 为 正 类 和 负 类 分 别 合成 概率 密度 函数 ( 取 o =1) ; 每 一 行 代 表 了 一 个 属性 ， 而 
左边 3 列 每 一 列 都 代表 了 一 个 样 例 ; 最 右 一列 显 示 的 是 合成 的 概率 密度 函数 ( 续 ) 


cf 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 在 什么 情况 下 高 斯 函数 是 一 个 不 够 准确 的 概率 密度 模型 ? 

e 为 什么 复合 的 概率 密度 函数 需要 用 进行 标准 化 ? 

o 如 何 建 立 每 个 单独 的 钟 形 函 数 的 中 心 和 方差 ? 








2.7 ”总结 和 历史 简 评 

















© 贝 叶 斯 分 类 带 对 每 个 类 ，c,， 分 别 计算 乘积 P(x1c;)P(c;)， 然 后 用 使 乘积 
取 最 大 值 的 类 别 来 标记 样 例 x。 
。 主要 问题 是 如 何 计算 概率 ; P(x 1 c)。 大 部 分 的 情况 下 ， 通 过 假设 各 个 属 








性 之 间 是 相互 独立 的 来 简化 这 个 工作 ， 这 时 P(x16) = TL PC le ) ,这 里 
n 是 属性 的 个 数 。 
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概率 ， 贝 叶 斯 分 类 名 


所 谓 的 m - 估计 使 得 利用 用 户 对 一 个 事件 概率 的 估计 成 为 可 能 。 这 常 发 生 
在 实验 依据 不 充分 的 域 中 ， 在 这 种 情况 下 相对 概率 是 不 可 靠 的 。 
在 连续 属性 的 域 ， 离 散 概率 和 P(x lc,) ， 分 别 由 概率 密度 函数 和 p. (x) 代 
蔡 。 但 分 类 的 过 程 是 一 样 的 : 样 例 被 标记 为 使 得 乘积 rn. (x) PC) 最 大 的 
类 别 。 
近似 估计 概率 密度 函数 的 具体 形状 可 以 通过 离散 化 、 使 用 标准 化 的 概率 密 
度 函 数 或 高 斯 函数 的 和 来 实现 。 
概率 估计 还 远 不 够 完美 ， 但 即使 在 严格 的 理论 假设 不 成 立时 ， 结 果 往 往 是 
令 人 满意 的 。 

历史 简 评 。 最 早 使 用 贝 叶 斯 决策 理论 进行 分 类 的 文章 是 尼 曼 ( Neyman) 和 皮 
尔 森 "1 (Pearson) 以 及 费 舍 尔 2 (Fisher) ， 但 是 只 有 随 着 计算 机 的 发 展 ， 这 个 
域 才 获得 了 快速 的 发 展 ， 当 时 主要 是 由 周 "”) (Chow) 主张 的 。 第 一 个 使 用 属性 相 
互 独立 假设 的 是 古 德 汪 (Good) 。 用 钟 形 函 数 之 和 来 近似 概率 密度 函数 的 想法 来 
H PIH (Parzen), 

当 提 供 了 关于 概率 的 完整 信息 时 ， 可 以 保证 贝 叶 斯 分 类 器 给 出 最 佳 的 分 类 准 
确 率 。 这 就 是 为 什么 它 有 时 被 用 来 作为 比较 其 他 方法 性 能 的 参照 的 原因 。 































































































2.8 巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 








练习 





1. 投掷 一 枚 硬币 3 次 ,分 别 得 到 正面 、 正 面 和 反面 。 使 用 m =3 Plate. = 
Trig =0.5， 为 这 些 输 出 计算 m - 估计。 
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2. 假设 你 有 如 下 的 训练 样 例 ， 它 们 由 3 个 属性 所 描述 : x, 、x, 、x;， 被 标注 


为 c 类 和 c 类. 
































x, Xp PA 类 别 
2.1 0.2 3.0 c 
3.3 1.0 2.9 c 
2.7 1.2 3.4 c 
0.5 5.3 0.0 A 
1.5 4.7 0.5 c 


使 用 这 些 数据 ， 完 成 : 
1) 假如 属性 是 相互 独立 的 ， 近 似 计算 如 下 的 概率 密度 函数 : p(x), p(x), 
p(x) tems: 利用 锥 加 的 钟 形 函 数 的 思路 。 
2) 利用 上 一 步 得 到 的 概率 密度 函数 ， 决 定 x=[1.4，3.3，3.0] 应 该 属于 
ci 类 还 是 c, 类 。 
3. 回 到 第 1 音 中 “ 派 ”的 域 ， 从 训练 集中 移 除 一 个 正 类 样 例 ， 如 左上 角 的 那 
个 〈 表 1.1 的 第 一 行 )。 假 如 属性 是 相互 独立 的 ， 计 算 这 个 特定 的 样 例 属 




















于 正 类 的 概率 。 


1. 怎样 在 一 个 有 3 种 可 能 输出 ，[4，B，C]， 每 个 都 有 相同 先 验 概率 估计 
=T, =r, =1/3 的 域 中 应 用 m -估计 ? 如 果 你 信赖 对 4 的 期 望 但 是 对 B 和 
C 不 确定 呢 ? 有 没有 一 种 能 够 在 参数 m 的 值 上 反映 这 种 情况 的 方法 ? 

2. 给 出 在 什么 条 件 下 概率 估计 的 准确 率 会 受益 于 属性 相互 独立 这 一 假设 ， 讨 
论 其 优势 和 劣势 

3. 在 一 个 有 布尔 属性 、 离 散 属性 、 连 续 属性 的 域 中 ， 如 何 计算 输出 类 别 的 概 
率 ? 讨论 组 合 不 同方 法 的 可 能 性 。 


























上 机 实验 
1. 机 需 学 习 研 究 人 员 经 常用 公开 的 可 用 的 基准 域 来 测试 他 们 的 算法 。 这 样 的 


E HOt 


z 


A 


第 2 


概率 ， 贝 叶 斯 


域 的 一 个 大 的 数据 库 可 以 在 以 下 地 址 找到 : www. ics. uci. edu/ ~ mlearn/ 
MLRepository. html。 看 一 下 这 些 数据 并 了 解 它们 在 属性 个 数 、 属 性 类 型 、 
大 小 等 方面 的 不 同 。 
. 写 一 个 计算 机 程序 ， 它 可 以 在 所 有 属性 都 是 离散 值 的 域 中 利用 贝 叶 斯 公式 
计算 类 别 的 概率 。 将 这 个 程序 用 于 “ 派 ” 的 域 。 
. 对 于 连续 属性 的 情况 ， 写 一 个 计算 机 程序 ， 如 上 面 练习 题 第 3 题 那样 ， 它 
可 以 用 表格 的 形式 接受 训练 样 例 。 基 于 这 些 ， 用 这 个 程序 近似 概率 密度 函 
数 ， 然 后 用 它们 来 决定 未 来 样 例 的 类 别 。 
. 将 上 机 实验 第 3 题 中 编写 的 程序 用 于 一 些 UCI 库 中 的 基准 域 上 〈 从 那些 属 
性 都 是 连续 的 库 中 选择 ) ， 并 注意 这 个 程序 在 一 些 域 上 会 比 在 另 一 些 域 上 
取得 更 好 的 结果 。 
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两 棵 看 起 来 非常 相像 的 植物 有 可 能 是 同一 个 物种 ; 同样 地 ， 诉 说 相似 症状 的 
病人 患 同样 的 病 也 是 非常 常见 的 。 总 的 来 说 ， 相 似 的 事物 经 常 是 属于 同一 个 类 别 
的 一 一 这 种 观察 形成 了 一 种 常用 分 类 方法 的 基础 ， 当 判断 对 象 x 的 类 别 时 ， 找 到 
与 它 最 相似 的 训练 样 例 ， 那 么 这 个 样 例 的 类 别 即 为 对 象 x 的 类 别 。 

这 一 章 主 要 解释 如 何 评价 样 例 与 样 例 之 间 的 相似 性 ， 介 绍 为 了 达到 分 类 的 目 
的 而 使 用 这 些 相 似 性 的 具体 机 制 ， 比 较 这 种 方法 与 贝 叶 斯 分 类 器 的 性 能 ， 以 及 介 
绍 一 些 克 服 内 在 弱点 的 方法 。 












































3.1 大 近邻 法 则 





我 们 如 何 确定 一 个 对 象 更 相似 于 zx 而 不 是 y 呢 ? 有 人 可 能 会 怀疑 这 样 做 的 可 
能 性 。 一 匹 马 和 一 匹 斑马 相 比 ， 长 颈 廊 会 更 相似 于 一 匹 马 吗 ? 这 类 问题 引起 了 质 
疑 。 在 回答 这 些 问题 的 时 候 ， 太 多 随意 的 和 主观 的 因素 会 牵涉 其 中 。 

属性 向 量 的 相似 性 。 正 如 本 书 所 阐述 的 ， 机 需 学 习 的 任务 是 把 这 些 异 议 减 到 
最 少 。 分 类 器 会 基于 属性 的 描述 去 比较 对 象 而 不 是 实际 的 对 象 本 身 一 一 这 似乎 是 
一 个 可 以 解决 的 问题 。 因 此 ， 在 第 1 章 提 到 的 玩具 域 里 面 ， 两 个 派 的 相似 性 可 以 
通过 计算 它们 相 异 的 属性 来 确定 差异 越 小 ， 相 似 度 越 高 。 表 格 3. 1 的 第 一 行 给 
出 了 对 象 x 的 属性 值 。 对 于 12 个 训练 样 例 ， 最 右 侧 的 一 列 显示 了 x 与 给 定 样 例 不 
同属 性 的 个 数 。 可 以 找到 的 最 小 值 对 应 于 exs ， 因 此 可 以 得 出 结论 : 对 象 x 与 exs 是 
最 相似 的 ， 同 时 意味 着 我 们 应 该 把 x 标记 为 pps， 即 exs 的 类 别 。 


x 
































表 3.1 计算 离散 属性 向 量 之 间 不 同属 性 值 的 个 数 
































Crust Filling 
样 例 Shape Class # 差 别 
Size Shade Size Shade 
x Square Thick Gray Thin White te = 
exl Circle Thick Gray Thick Dark pos 3 
ex2 Circle Thick White Thick Dark pos 4 
ex3 Triangle Thick Dark Thick Gray pos 4 

































































第 3 章 
相似 性 : 最 近邻 分 类 器 
( 续 ) 
Crust Filling 
样 例 Shape Class # 差 别 
Size Shade Size Shade 
ex4 Circle Thin White Thin Dark pos 4 
ex5 Square Thick Dark Thin White pos 1 
ex6 Circle Thick White Thin Dark pos 3 
ex7 Circle Thick Gray Thick White neg 2 
ex8 Square Thick White Thick Gray neg 3 
ex9 Triangle Thin Gray Thin Dark neg 3 
exl0 Circle Thick Dark Thick White neg 3 
exll Square Thick White Thick Dark neg 3 
ex12 Triangle Thick White Thick Gray neg 4 
处 理 连续 的 属性 也 是 非常 简单 的 。 事实 上 ， 每 个 样 例 都 能 表示 为 n 维 空间 中 





氏 距 离 (3.2 
间 中 的 距离 越 小 ， 





， 这 个 事实 使 得 








计算 每 对 样 例 之 间 的 几何 距离 成 为 可 能 ， 例 如 ,计算 欧 








节 将 会 更 多 地 叙述 如 何 计 算 向 量 
它们 之 间 的 相似 度 越 高 。 最 近 


[之 间 的 距离 ) 。 
邻 分 类 器 因 册 


间 中 ,与 x 在 几何 意义 上 距离 最 小 的 训练 样 例 就 是 x 的 最 近 
从 单一 邻居 到 大 个 邻 届 。 在 有 噪声 的 域 ， 最 近邻 的 真 伪 是 不 可 靠 的 。 如 果 



































k SE 


运算 法 则 。 


Di 


近邻 而 不 是 唯一 的 一 
中 





个 ， 然 后 让 它们 来 投票 。 
了 投票 的 近邻 个 数 ， 通 常 由 用 户 指定 。 表 3.2 中 的 伪 代 码 总 结 























表 3.2 大 近邻 分 类 器 的 一 























个 最 简单 版 本 

















邻 。 


次 说 明 ， 样 例 在 空 
而 得 名 : 在 样本 空 








羊 本 的 类 标本 身 就 是 不 正确 的 呢 ? 一 个 更 加 和 鲁 棒 的 方法 是 找到 多 个 最 
这 就 是 近邻 分 类 器 的 实质 ， 其 





假设 我 们 有 一 种 度量 属性 向 量 之 间 相 似 性 的 机 制 ， 以 此 来 决定 x 的 类 别 。 


1. 在 训练 样本 中 ， 
2. 假如 c; 是 这 大 个 最 近邻 








找到 x 的 个 最 近邻 (与 x 最 相似 的 样 例 )。 
包含 最 多 的 类 别 。 





3. 则 * 的 类 别 即 为 c;。 
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值得 注意 的 是 ， 当 一 个 域 中 只 存在 两 个 类 时 ， 为 了 避免 出 现 两 个 类 数量 均 分 
的 情况 ,应 该 取 一 个 奇数 。 例 如 ， 一 个 4 近邻 分 类 器 就 可 能 遇 到 正 类 近邻 的 数目 
与 负 类 近邻 的 数目 相等 的 情况 。 而 对 于 5 近邻 分 类 器 ， 就 不 会 出 现 这 样 的 情况 。 
当 一 个 域 中 不 止 两 个 类 时 ， 即 便 左 取 奇 数 也 不 可 避免 出 现 这 种 平局 的 情况 。 例 如 ， 
一 个 7 近邻 分 类 器 可 以 找到 3 个 属于 C, 类 的 近邻 、3 个 属于 C, 类 的 近邻 和 一 个 属 
于 C; 类 的 近邻 。 因 此 在 设计 分 类 器 时 ， 需 要 定义 一 种 能 够 在 C, 和 C, 类 中 做 出 选 
择 的 机 制 。 

一 个 图 解 。 这 个 范例 的 某 些 “行为 层面 ”可 以 通过 一 个 假想 域 而 变 得 非常 明 
显 且 容 易 可 视 化 ， 在 这 个 假想 域 中 每 个 样 例 都 由 两 种 数值 属性 来 刻画 。 图 3. 1 显 
示 了 一 些 正 类 和 负 类 的 训练 样 例 ， 以 及 一 些 需 要 用 邻近 分 类 器 来 决定 其 类 别 的 
对 象 (用 黑色 的 圆 点 表示 ) 。 读 者 可 以 看 到 ， 对 象 1 和 对 象 2 被 同类 的 样 例 包围 
着 ， 所 以 它们 的 分 类 是 简单 直接 的 。 然 而 ， 对 象 3 位 于 正 类 区 域 与 负 类 区 域 之 间 
的 “无 人 之 地 ”， 所 以 即使 是 少量 的 属性 噪声 也 能 混淆 对 象 的 分 类 。 因 此 这 些 边 
界 样 例 的 分 类 是 不 可 靠 的 。 

在 图 3. 1 的 右 侧 ， 对 象 4 在 正 类 区 域 的 内 部 ， 但 是 类 别 噪声 却 把 它 训练 集 里 
的 近邻 错误 地 标记 为 负 类 。 在 这 里 ， 如 果 使 用 1 近邻 分 类 器 必然 会 导致 错误 的 分 
类 ， 但 使 用 3 近邻 分 类 器 却 会 给 出 正确 答案 ， 因 为 其 他 两 个 正 类 近邻 的 投票 会 超 


过 一 个 负 类 近邻 的 投票 。 





































































































y = y z 
ds + 
+ 7 = ee a 
+ boo $l 
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十 : 7 + i 7 
+ 十 
x x 
图 3.1 位 于 边界 区 域 的 对 象 3 是 比较 难 分 类 的 。 在 右 侧 所 示 的 有 噪声 


R, 1 近邻 分 类 器 会 造成 对 象 4 错误 分 类 ， 但 是 3 近邻 分 类 器 
会 对 对 象 4 进行 正确 分 类 


efi 你 学 到 了 什么 ? 
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EY 
a mh 





相似 性 : 最 近邻 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 


有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 


o 在 属性 都 是 离散 值 的 情况 下 如 何 度 量 样 例 之 间 的 相似 性 ? 在 属性 都 是 连续 








值 的 情况 下 呢 ? 





e 在 什么 样 的 情况 下 , 〖 近邻 分 类 器 (有 >1) 会 比 1 近邻 分 类 器 表现 好 ? 为 


什么 ? 


e 为 什么 当 一 个 域 中 存在 两 个 类 时 ,近邻 分 类 器 中 的 应 该 为 奇数 ? 
。 属性 噪声 是 如 何 影响 一 个 边界 样 例 的 分 类 情况 的 ? 类 别 标 号 噪声 有 怎样 的 





影响 ? 


3.2 度量 相似 性 


正如 指出 的 那样 ， 寻 找 对 象 x 的 最 近邻 的 一 个 常 月 





方法 就 是 比较 从 x 到 每 个 








训练 样 例 之 间 的 几何 距离 。 图 3. 1 用 一 个 其 至 可 以 用 尺子 直接 量 出 距离 的 简单 的 
域 来 说 明 这 个 原理 。 但 是 如 果 样 例 具有 两 个 以 上 的 属性 ， 那 么 尺子 就 不 能 作为 我 























们 选择 的 工具 了 。 此 时 我 们 需要 的 是 一 个 可 以 通过 属性 

















欧式 距离 (Euclidean Distance) 。 在 一 个 二 维 





值 来 计算 相似 性 的 表达 式 。 


平面 内 ,x = (和 a) 和 y= O ya) 两 点 之 间 的 为 | 


儿 何 距离 是 可 以 通过 勾 股 定理 计算 出 来 的 ， 如 图 
3.2 Prax, Bl d(x, y) = V(x came ¥2) 0 
这 个 公式 可 以 很 轻易 地 推广 到 有 n 个 连续 属性 的 
I, 这 里 x= (x, +, a) My=(n, 5 ¥,) 之 
间 的 欧式 距离 定义 如 下 : 

















d(xy) = fd" (xy)? (3.1) 
K 3.3 展示 了 如 何在 近邻 分 类 器 中 使 用 这 个 


PE 








Xl Xz 


图 3.2 二 维 空间 中 ， 两 个 点 之 


间 的 欧式 距离 等 于 直角 
三 角形 斜 边 的 长 度 
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距离 度量 的 方法 ， 所 使 用 的 训练 集 包含 4 个 样 例 ， 每 个 样 例 具 有 3 个 数值 








性 。 





Hl 


表 3.3 在 一 个 三 维 欧式 空间 中 使 用 最 近邻 准则 











使 用 如 下 的 训练 集 : 其 中 包含 4 个 样 例 ， 每 个 样 例 有 3 个 数值 属性 ， 以 此 判断 物体 
x=[2, 4, 2] 的 类 别 。 












































ex, 与 [2, 4, 2] 之 间 的 距离 

ex, {[1, 3, 1], pos} (2-1)? + (4-3)? + (2-1) =43 
ex, {[3, 5, 2], pos} (2-3) + (4-5) + (2-2) =/2 
ex, {[3, 2, 2], pos} (2-3) + (4-2) + 2-2) =5 
ex, |[5, 2, 3], pos} (2-5) + (4-2) + (2-3) =/4 














通过 计算 x 与 所 有 训练 样 例 之 间 的 欧式 距离 ， 我 们 发 现 x 的 最 近邻 是 ex,。 因 为 它 的 类 
标 是 pos， 所 以 最 近邻 分 类 器 返回 正 类 的 类 标 。 

3 近邻 分 类 器 也 得 到 了 一 样 的 结果 ， 因 为 两 个 x 的 最 近邻 (ex, Mex) 均 属于 正 类 ， 
仅 有 一 个 (ex,) 属于 负 类 。 
































一 个 更 通用 的 公式 。 读 者 可 以 看 到 根 号 下 面 的 项 是 一 个 关于 对 应 属性 的 平方 
距离 的 和 [这 些 差 值 取 平 方 项 ， 能 保证 一 定 是 正 值 ， 这 样 做 的 一 个 好 处 是 防止 了 
负 的 差 值 (x; -y <0) 会 从 正 的 差 值 (x; - y >0) PREJ 。 这 个 公式 在 数学 
上 表示 如 下 : 








dy(x,y) = f 1) ds 入) (3.2) 
这 就 是 当 离散 和 连续 属性 混合 在 一 起 时 一 般 的 向 量 之 间距 离 的 计算 方法 (在 
符号 dy(x, y) 中 ,通过 下 标 字母 M 来 标识 )。 例 如 ， 我 们 可 以 把 d(«;, y;) = 
(y) 用 于 连续 向 量 ， 然 而 对 于 离散 数学 ， 如 果 %, =y, RIS d(x,, yi) =0, 
WR xy, WS dlx, y) =1。 
注意 ， 如 果 所 有 属性 都 是 连续 的 ,那么 这 个 公式 跟 欧 氏 距 离 的 计算 公式 是 一 
样 的 ; 而 如 果 所 有 属性 都 是 离散 的 ， 那 么 这 个 公式 则 简单 指出 了 两 个 向 量 不 同属 
生 值 的 个 数 。 在 纯 布 尔 域 ， 所 有 属性 只 能 从 正确 和 错误 当中 取 值 (我们 分 别 将 其 
缩写 为 t 和 全 ， 后 一 种 的 情形 被 称 为 海 明 距 离 (dj)。 例 如 ,向量 x=(t, t, f, f) 
与 向 量 y = (t, f, t, O 的 海 明 距离 为 dy(x, y) =2。 通 常 来 说 , 式 (3.2) 用 在 
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样 例 由 离散 和 连续 的 属性 混合 起 来 描述 的 域 中 。 

属性 与 属性 间 的 距离 可 能 被 误导 。 我 们 必须 注意 ， 不 能 机 械 地 运用 式 (3.2) 
而 无 视 了 给 定 域 的 特殊 性 。 让 我 们 简单 地 讨论 两 种 容易 出 错 的 情况 吧 。 

假定 我 们 的 样 例 是 由 3 个 属性 来 描述 的 : 尺寸、 价格、 季节。 其 中 ， 前 两 个 
显然 是 连续 的 ， 但 最 后 一 个 是 离散 的 。 如 果 x = (2，1.5， 夏 季 ) 和 y=(1, 0.5, 
冬季 ) ， 那 么 根据 式 (3.2) ， 它 们 两 者 的 距离 计算 如 下 : 

dy(x, y) = V2-1) +(1.5-0.5)? +1 =/⁄3 

我 们 首先 来 考虑 一 下 第 3 个 属性 : 夏季 和 冬季 是 不 同 的 ， 如 前 所 述 ， 我 们 确 
Ed (夏季 ,冬季 ) =1。 事 实 上 ， 我们 通常 认为 夏季 与 冬季 的 差异 比 夏季 与 秋季 
( 相 邻 季节 ) 的 差异 更 大 。 至 少 就 天 气 而 言 ， 春 季 与 秋季 比 夏季 与 冬季 是 更 加 相 
似 的 。 因 此 我 们 认为 ， 只 有 0 和 1 两 个 取 值 是 明显 不 够 的 。 我 们 应 该 考虑 更 多 的 
中 间 值 ， 而 具体 的 选择 取决 于 所 给 情境 的 特定 需求 。 忽 略 此 因素 可 能 不 会 得 到 准 
确 的 结果 。 

在 男 一 方面 ， 将 连续 和 离散 的 属性 混合 在 一 起 也 是 非常 危险 的 。 不 假 思索 
地 使 用 式 (3.2) 可 能 会 导致 尺寸 这 个 属性 的 差异 [例如 ，size, = 1 和 size, = 
12 ， 意 味 着 d( size, ，size,) =112 =121] 与 季节 的 差异 相 比 占据 优势 (事实 上 ， 
它 是 不 能 超过 1 的 ) 。 这 个 结论 与 下 一 节 要 讨论 的 关于 尺度 缩放 的 问题 是 紧密 相 
关 的 。 

广义 的 距离 。 读 者 开始 意识 到 相似 性 的 问题 并 非 是 微不足道 的 。 除 了 式 
(3.2) ， 还 有 非常 多 的 公式 已 经 被 提出 ， 其 中 的 一 部 分 是 非常 复杂 的 〈 这 些 公式 
中 ， 可 能 较 著 名 的 包括 极 距 离 、Minkowski 度量 和 Mahalanobis 距离 )。 尽 管 知道 它 
们 的 存在 是 比较 好 的 ， 但 我 们 将 不 会 在 这 里 提 及 它们 ， 因 为 我 们 不 想 过 度 地 偏离 
我 们 的 主题 ,但 这 足以 说 明 距 离 度量 必须 满足 以 下 要 求 : 

1. 距离 不 可 以 是 负 的 。 

2. 相同 的 两 个 向 量 间 的 距离 为 0。 

3. x 到 y Sy 到 x 的 距离 是 一 样 的 。 

4. 距离 度量 必须 满足 三 角 不 等 式 ; d(x, y) +d(y, Zz) 宇 d(xX, z)o 
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FSET TA? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 什么 是 欧式 距离 ? 什么 是 海 明 距 离 ? 它们 都 可 以 用 于 哪些 域 ? 距离 与 相似 
性 是 怎样 联系 起 来 的 ? 
。 若 域 中 的 样 例 同时 包含 连续 和 离散 属性 ， 则 写 出 所 需 的 距离 公式 。 讨 论 在 
现实 中 直接 应 用 它 会 造成 的 困难 之 处 。 
o 任何 距离 度量 都 需要 满足 的 基本 性 质 有 哪些 ? 
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3.3 不 相关 属性 与 尺度 缩放 问题 


到 目前 为 止 ， 读 者 已 经 很 好 地 理解 了 上 近邻 分 类 器 的 原理 ， 并 可 以 写 出 计算 
机 程序 来 实现 这 一 工具 。 但 是 ， 这 还 不 够 。 如 果 只 是 机 械 地 使 用 ， 那 所 设计 出 的 
软件 很 可 能 令 人 感到 失望 。 所 以 ， 有 必要 知道 这 是 为 什么 。 

最 近邻 范例 的 基石 是 “所 描述 对 象 的 向 量 之 间 的 几何 距离 越 小 ， 则 对 象 越 相 
似 "。 我 们 必须 注意 不 能 让 这 个 准则 退化 为 一 个 教条 。 在 一 些 情况 下 ， 几 何 距离 又 
会 形成 误导 。 这 两 者 有 着 一 定 的 共同 性 。 an + 

不 相关 属性 。 如 果 认 为 所 有 的 属性 都 是 平 
等 的 ， 那 就 不 对 了 ， 它 们 是 不 平等 的 。 在 机 器 A- 
学 习 中 ， 一 些 属性 是 不 相关 的 ， 因 为 它们 的 值 
与 给 定 样 例 的 类 别 是 毫 无 关系 的 。 但 是 ， 它 们 

































































却 会 影响 向 量 之 间 的 几何 距离 。 
一 个 简单 的 图 示 会 阐明 这 一 点 。 在 图 3.3 图 


体温 
3.3” 纵 轴 的 属性 对 分 类 是 无 关 


中 的 训练 集中 ， 样 例 由 两 个 数值 属性 来 刻画 : 的 ， 但 是 它 会 影响 样 例 之 间 
体温 (BCH) MRES ( 纵 轴 )。 黑 点 代表 了 要 的 几何 距离 。 对 象 1 属于 正 





类 ， 尽 管 在 这 个 二 维 空间 中 
近邻 分 类 器 来 预测 》 或 生 ; 
FA k 近邻 分 类 器 来 预测 为 健康 (pos) 或 生病 它 的 最 近邻 点 属于 负 类 


(neg) 的 对 象 。 


第 3 
相似 性 : 最 近邻 分 类 器 





正如 所 料 ， 所 有 的 正 类 样 例 都 位 于 “水 平 ” 属 性 上 两 个 关键 点 所 限定 的 阴影 
KRZA: 温度 高 于 最 大 值 意 味 着 高 烧 ， 低 于 最 小 值 意 味 着 低 体 温 。 对 于 “ 纵 
向 ”属性 ， 我 们 可 以 看 到 正 类 样 例 和 负 类 样 例 是 散落 在 整个 区 间 的 ， 但 是 鞋 号 不 
能 反映 出 一 个 人 的 健康 信息 。 我 们 要 分 类 的 对 象 在 阴影 区 域 ， 尽 管 这 个 对 象 的 最 
近邻 属于 负 类 ， 但 是 常识 告诉 我 们 它 应 该 被 标记 为 正 类 。 

教训 。 如 果 仅 用 第 一 个 属性 ， 则 两 个 样 例 之 间 的 欧式 距离 是 心 (x，y) = 
Vi=1m -y 1。 如 果 两 个 属性 都 用 ， 则 欧 氏 距离 会 是 di (x,，y) = 

y) + (2 六。 如 果 第 二 个 属性 是 无 关 的 , 那 ( -y,)? 这 一 项 是 多 余 
的 ， 但 是 相反 地 ， 它 对 天 近邻 的 相似 性 的 计算 是 有 影响 的 。 这 就 是 在 图 3.3 中 所 
发 生 的 ， 也 是 为 什么 对 象 1 被 错误 分 类 的 原因 。 

不 相关 属性 会 造成 多 大 的 损失 取决 于 有 多 少 不 相 关 属 性 被 用 来 描述 样 例 。 在 
一 个 有 几 百 个 属性 的 域 ， 仅 有 一 个 属性 是 无 关 的 ， 那 不 必 惊 慌 : 单个 的 不 良 因素 
在 任何 意义 上 不 太 可 能 改变 dr(z,，y) 的 值 。 但 是 ， 当 不 相关 属性 的 比例 逐渐 提 
高 事情 就 会 发 生变 化 了 。 如 果 大 量 的 属性 对 于 我 们 要 识别 的 类 别 没有 任何 价值 ， 
那 几 何 距 离 将 变 得 几乎 没有 意义 ， 分 类 器 的 表现 也 会 逊色 不 少 。 

属性 值 的 尺度 。 假 设 我 们 要 评估 两 个 样 例 的 相似 性 : x = (t，0.2，254) 和 
y=(f，0.1，194)。 它 们 都 是 用 3 个 属性 来 描述 的 ， 其 中 第 一 个 是 布尔 值 ， 第 二 
个 是 取 值 于 [0, 1] 区 间 的 连续 值 ， 第 三 个 是 取 值 于 [0, 1000] 区 间 的 连续 值 。 
使 用 式 (3.2)， 读 者 很 容易 计算 x Aly 之 间 的 距离 ， 得 到 如 下 结 














































































































dy(x, y) = V(1-0)? +(0.2-0.1)* +(254 一 194)” 

检查 这 个 表达 式 ， 我 们 会 注意 到 第 三 项 完全 控制 了 计算 结果 ， 其 他 两 项 对 
结果 毫 无 意义 。 不 论 我 们 怎样 在 它们 的 定义 域 调 整 取 值 ， 距 离 dr(z，?) 的 值 
几乎 不 受 影响 。 笠 和 运 的 是 ， 这 种 情况 很 容易 得 到 修正 。 在 训练 集中 ， 如 果 我 们 
将 第 三 个 属性 的 值 除 以 1000， 即 将 其 值 域 “ 挤 压 ” 到 [0，1] ， 则 属性 之 间 的 
影响 将 变 得 更 加 平衡 。 我 们 可 以 看 到 ， 属 性 值 的 尺度 会 从 根本 上 影响 近邻 分 
类 器 的 表现 。 

属性 尺度 缩放 的 另 一 个 方面 。 对 于 属性 尺度 缩放 还 有 更 多 内 容 要 讲 。 考 虑 如 
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下 的 两 个 训练 样 例 : ex, 和 ex ， 要 决定 其 类 别 的 对 象 *: ex, =[(10，10) pos], 
ex, =[ (20, 0), neg], x =(32, 20), 

距离 分 别 是 dy (x, ex,) = /584F dy (x, ex.) = V544。 后 者 要 小 点 儿 ， 这 样 
最 近邻 分 类 器 将 x 标注 为 neg。 然 而 ,假如 第 二 个 属性 表示 的 是 温度 ， 单 位 是 摄氏 
度 〈% ) 。 如 果 我 们 要 用 华氏 温度 CF) 来 替换 ， 则 3 个 向 量 将 变 为 : ex, = 
(10, 50), pos], ex, =[(20, 32), neg], x=(32, 68), 

重新 计算 距离 ， 我 们 有 d(x, ex,) = /808 Fil dy (x, ex,) = V1440。 这 次 第 
一 个 距离 要 小 点 儿 ， 因 此 最 近邻 分 类 器 会 将 xz 标注 为 pos。 这 看 起 来 有 点 儿 奇 怪 。 
除了 选择 了 不 同 的 温度 单位 ， 所 有 的 样 例 完全 一 样 ， 但 是 分 类 器 的 决策 却 发 生 了 
变化 。 

标准 化 属性 尺度 。 解 决 这 个 问题 的 一 个 办 法 是 标准 化 属性 尺度 : 重新 缩放 使 
得 所 有 的 属性 取 值 位 于 相同 的 区 间 ， 即 [0,1]。 截 至 目前 所 用 到 的 千 干 机 制 ， 最 
简单 的 一 个 应 该 是 : 首先 对 于 给 定 的 属性 找到 它 的 最 大 值 (MAX) 和 最 小 值 
(MIN), REH x 代替 每 一 个 属性 值 ， 代 入 到 式 (3.3) 中 : 


x — MIN 
~ MAX - MIN 


下 面 用 一 个 简单 的 例子 来 前 述 一 下 。 假 设 训练 集中 有 5 个 样 例 ， 一 个 给 定 的 
属性 分 别 有 如 下 的 值 : [7, 4, 25, -5, 10]. 
我 们 观察 到 MIN = -5、MAX =25。 从 各 个 值 中 减 去 MIN ， 我 们 得 到 如 下 结 
R. [12, 9, 30, 0, 15], 

读者 会 发 现 新 的 最 小 值 是 0， 而 新 的 最 大 值 是 MAX -MIN =25 - ( -5) =30, 
H MAX - MIN 去 除 上 面 得 到 的 结果 ， 所 有 值 都 将 落 入 区 间 [0, 1]， 即 [0.4， 
0.3, 1, 0, 0.5]. 

标准 化 的 一 个 潜在 的 弱点 。 在 许多 实际 应 用 中 ， 标 准 化 降低 了 错误 率 ， 特 别 
是 在 原始 属性 的 尺度 显著 不 同 的 情况 下 。 一 个 负面 作用 是 样 例 的 描述 会 变 得 扭曲 。 
而 且 ， 使 得 所 有 数值 都 落 入 0 ~1 之 间 的 实用 主义 的 决定 可 能 是 不 合理 的 。 例 如 ， 
如 果 夏 季 和 秋季 的 差 为 1， 则 它 会 永远 大 于 两 个 标准 化 的 体温 的 差 值 。 这 是 否 重 
要 取决 于 工程 师 的 常识 ,包括 工程 师 的 经 验 以 及 所 有 的 实验 经 历 。 
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相似 性 : 最 近邻 


FMF ENT TA? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 为 什么 不 相关 属性 的 存在 会 影响 左近 邻 分 类 器 的 表现 ? 近邻 分 类 器 的 表 
现 与 不 相关 属性 的 数目 之 间 的 关系 是 什么 ? 
© 解释 关于 属性 尺度 缩放 的 基本 问题 。 描 述 一 个 简单 的 标准 化 方法 。 





9 


3.4 ”性 能 方面 的 考虑 


花 了 这 么 多 时 间 来 探索 对 近邻 分 类 器 ， 读 者 不 免 会 问 : 我 真 的 需要 关心 这 些 
吗 ? 答案 是 肯定 的 ， 技 术 是 很 容易 通过 计算 机 编程 来 实现 的 ， 功 能 也 很 容易 掌握 。 
日 是 这 样 就 代表 它 的 分 类 性 能 已 经 足够 好 了 吗 ? 

最 近邻 分 类 器 与 理想 贝 叶 斯 的 比较 。 我 们 给 出 一 些 对 这 个 问题 的 思考 。 最 终 
的 度量 左近 邻 分 类 顺 的 潜能 的 准则 是 贝 叶 斯 方法 。 我 们 可 以 回想 一 下 ， 如 果 用 于 
贝 叶 斯 公式 的 概率 和 概率 密度 函数 是 已 知 绝对 精确 的 ， 那么 在 理论 上 ， 对 于 给 定 
AY CRE) 数据 ,我 们 使 用 这 个 分 类 器 (我 们 称 之 为 理想 贝 叶 斯 ) 是 可 以 达到 最 
低 错误 率 的 。 可 以 肯定 的 是 ,使 用 k 近邻 方法 也 不 会 相差 很 多 。 

这 个 问题 已 经 从 数学 上 做 过 严格 分 析 ， 这 里 我 们 将 给 出 结果 。 图 3.4 展示 了 
在 一 定 的 理想 条 件 下 ， 如 无 限 大 的 训练 集 以 及 无 限 的 密度 填充 了 整个 样本 空间 的 
理想 贝 叶 斯 和 近邻 的 对 比 结果 。 实 线 代 表 了 域 中 存在 两 个 类 的 情形 ， 即 样 例 或 
属于 正 类 或 属于 负 类 。 我 们 可 以 看 到 ， 如 果 理 想 贝 叶 斯 的 错误 率 是 5% ， 则 最 近 
邻 分 类 器 〈 纵 轴 ) 的 错误 率 是 10% 。 随 着 噪声 量 的 增加 ， 两 种 方法 的 差异 在 逐渐 
减 小 ， 当 理想 贝 叶 斯 有 50% 的 错误 率 时 ， 两 者 的 差异 就 会 消失 ， 当 然 ， 在 这 种 情 
况 下 ， 训 练 样 例 的 类 别 实 际 上 是 随机 的 ， 任 何 的 自动 分 类 的 尝试 都 是 没有 用 的 。 
图 中 虚线 代表 的 是 域 中 存在 多 类 别 的 情形 ， 可 见 情况 并 没有 任何 好 转 。 再 一 次 地 ， 
理想 贝 叶 斯 在 特定 情形 下 的 性 能 优 于 最 近邻 分 类 器 。 
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贝 叶 斯 错误 率 


图 3.4 最 近邻 准则 的 理论 错误 率 与 理想 贝 叶 斯 的 理论 错误 率 ( 实 线 代表 
域 中 存在 两 个 类 的 情形 ， 虚 线 代表 域 中 存在 多 个 类 的 情形 ) 

增加 近邻 个 数 。 从 最 近邻 分 类 器 的 角度 看 ， 图 3. 4 的 结果 是 比较 令 人 失望 的 。 
男 外 ， 我 们 知道 当 我 们 使 用 更 加 通用 的 近邻 分 类 器 (k >1) 时 ， 近 邻 分 类 器 的 
性 能 会 有 所 改善 ， 因 为 一 些 噪声 的 近邻 点 参与 投票 时 会 被 其 他 近邻 点 抑制 。 那 么 ， 
数学 上 也 会 给 pa me 些 支 持 吗 ? 
是 的 ， 确 实 如 此 。 在 以 上 提 到 的 理想 情况 下 ， 已 经 证 明 错 误 率 随 着 大 值 的 增 
加 在 减 小 ， 直 到 一 % 时 收敛 到 理想 贝 叶 斯 的 错误 率 。 至 少 在 理论 上 ， 最 近邻 分 
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类 器 的 性 能 是 可 以 达到 最 大 绝对 值 的 。 ABR 
理论 的 现实 约束 。 工 程 师 们 是 不 关心 

理论 的 要 求 的 。 在 实际 应 用 中 ， 训 练 样 例 a ee 

JS A Be INS He PEAS 2S Tad, MAN -7 - 

加 投票 近邻 的 个 数 会 适得其反 。 更 多 的 情 


图 3.5 随 着 投票 近邻 个 数 (大 ) 的 增 
况 是 ， 随 着 上 值 的 增加 错误 率 确 有 改进 ,但 加 , 大 近邻 分 类 器 的 错误 率 降 


是 相对 于 起 点 来 说 ， 改 善 只 是 一 点 点 ， 正 
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如 图 3. 5 所 描绘 的 ， 这 里 横 轴 代表 了 大 的 值 ， 纵 轴 代 表 了 在 一 个 独立 的 测试 集 
到 的 错误 率 。 

解释 很 简单 : 在 样本 空间 中 ， 相 对 较 远 的 近邻 所 在 的 区 域 可 能 已 经 被 其 他 类 
所 占据 ， 这 样 它 们 就 会 误导 分 类 器 。 考 虑 一 个 极端 情况 : 如 果 训 练 集中 包含 25 个 
训练 样 例 ， 那 么 25 近邻 分 类 器 是 没 用 的 ， 因 为 它 只 是 简单 地 标注 了 所 有 对 象 在 训 
练 集中 出 现 的 次 数 (最 优 的 左 值 ， 也 就 是 对 应 于 最 小 错误 率 的 大 值 ， 一 般 是 通过 
实验 获得 的 ) 。 

维 数 灾难 。 显 然 ， 当 对 一 个 对 象 * 进行 分 类 时 ， 一 些 它 的 近邻 点 并 不 足够 相 
似 于 它 ， 但 却 能 够 参与 到 投票 中 。 这 种 情况 经 常 发 生 在 包含 许多 属性 的 域 。 假 设 
每 个 属性 的 取 值 都 限制 在 单位 长 度 的 区 间 [0，1] 。 使 用 匀 股 定理 ， 很 容易 发 现 : 
在 由 属性 所 定义 的 n 维 空间 中 最 大 的 欧式 距离 是 dux = Jno MEF n = 10 (在 一 些 
领域 ， 如 文本 分 类 ) ， 这 意味 着 dux = 100。 考 虑 到 没有 属性 的 值 会 超过 100 这 一 
事实 ， 这 个 结论 可 能 会 令 人 吃惊 。 怪 不 得 样 例 是 趋向 于 稀 聋 的， 除非 训练 集 真 的 
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在 这 种 情境 下 ， 常 被 提 到 的 一 个 术语 是 维 数 灾 难 : 随 着 属性 个 数 的 增加 ， 需 

要 以 合适 密度 填充 样本 空间 的 训练 样 例 的 数目 以 快速 增长 ， 但 可 能 因为 增 速 太 快 

而 使 得 最 近邻 分 类 不 再 实用 。 

总 结 。 尽 管理 想 的 下 近邻 分 类 器 能 够 达到 理想 贝 叶 斯 的 分 类 性 能 ， 工 程 

师 需要 注意 这 两 种 方法 的 现实 局 限 性 。 在 概率 和 概率 密度 函数 完全 缺失 的 情 

况 下 使 用 理想 贝 叶 斯 是 不 现实 的 。 另 外 , 左近 邻 分 类 器 往往 会 受到 数据 稀 玻 、 

不 相关 属性 以 及 尺度 问题 的 影响 ， 具 体 的 选择 需要 依据 给 定 应 用 问题 的 特定 
需求 来 决定 。 
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L 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
日 天 近 邻 分 类 器 与 理想 贝 叶 斯 的 分 类 表现 对 比 情况 是 怎样 的 ? 分 别 对 天 =1 和 
k>l 的 情况 进行 总 结 。 这 两 个 范式 都 依赖 于 什么 样 的 理论 假设 ? 
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。 在 理论 和 实际 应 用 方面 , 天 近 邻 分 类 器 的 表现 是 怎样 依赖 于 大 值 的 增长 的 ? 
o 怎样 理解 维 数 灾难 ? 














3.5 加权 最 近邻 





到 目前 为 止 ， 投 票 机 制 是 被 假设 为 民主 的 ， 每 个 近邻 有 相同 的 投票 权 。 这 看 
起 来 是 个 足够 公平 的 安排 了 ， 但 是 从 分 类 性 能 的 角度 考虑 ， 我 们 还 可 以 做 得 更 好 。 
在 图 3.6 中 ， 我 们 需要 确定 对 象 x 的 类 别 ， 它 rer 
用 一 个 黑 点 表示 。 因 为 有 3 个 近邻 属于 负 类 ， 两 个 Te 
属于 正 类 ， 所 以 5 近邻 分 类 器 会 把 它 判 定 为 负 类 。 | 
日 是 ， 这 里 看 起 来 有 点 问题 : 3 个 负 类 的 近邻 点 离 > 
x 特别 远 ; 这 样 ， 在 物体 的 直接 近邻 区 域 ， 它 们 好 
像 不 应 该 和 那 两 个 正 类 样 例 一 样 有 话语 权 。 —— 

加 权 最 近邻 。 这 样 的 情形 促使 了 加 权 投票 的 引 
入 ， 这 样 每 一 个 近邻 点 的 权重 与 它 到 x 的 距离 成 一 图 3.6 两 个 正 类 近邻 应 该 比 3 
定 比例 ， 近 邻 点 越 靠近 ， 权 重 的 影响 越 大 。 TERTERA 

RAMu, =, w RACAL. maga = MRR ABRIL 
类 器 将 正 类 的 近邻 的 权重 相 加 〈 用 宗 “ 来 标记 结果 ) ， 然 后 再 将 负 类 的 近邻 的 权 
重 相 加 ( 邵 ”)。 最 终 的 判断 取决 于 哪个 值 更 大 : WEE > D, Wx BRIA 
为 是 正 类 的 ， 否 则 就 认为 它 是 负 类 的 。 以 此 推广 到 n>2 的 情况 。 

为 了 图 示 的 方便 ， 假 设 在 近邻 中 发 现 正 类 标号 权重 分 别 是 0.6 和 0.7， 负 类 标号 的 
权重 分 别 是 0.1，0.2 和 0.3。 那 么 加 权 k 近邻 分 类 器 会 选择 正 类 ， 因 为 正 类 近邻 的 组 合 
权重 “= 0.6 +0.7 = 1.3 大 于 负 类 近邻 的 组 合 权 重 》 =0.1+0.2+0.3 =0.6。 正 
如 图 3.6 所 示 的 一 样 ， 因 为 正 类 近邻 更 加 靠近 *， 所 以 在 投票 中 成 胜 了 出 现 更 加 频 
繁 的 负 类 近邻 。 

一 个 具体 的 公式 。 让 我 们 介绍 一 个 简单 的 公式 来 计算 权重 。 假 设 个 近邻 点 
按照 它们 到 的 距离 排列 ， 即 dl ，…，d,， 这 样 d, 是 最 近 距离 而 d, 是 最 远 距离 。 
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第 i 个 靠近 的 近邻 点 的 权重 可 以 按 式 (3.4) 进行 计算 : 





d, -d, 
oa (d, #d,) 

w,=s kh I (3.4) 
1 (d, =d,) 


显然 ,得 到 的 权重 将 在 0 ~1 的 范围 内 ,0 对 应 于 最 远 的 近邻 ，1 对 应 于 最 靠 
近 的 近邻 。 这 意味 着 这 个 方法 实际 上 只 考虑 了 -1 个 近 Nise 
然 ， 这 仅 对 于 >3 是 有 意义 的 。 如 果 我 们 用 k=3， 那 么 只 有 两 个 近邻 点 真 的 参与 
进来 ， 而 且 加 权 的 3 近邻 分 类 器 会 退化 成 最 近邻 分 类 器 。 
表 3.4 描述 了 在 一 个 简单 的 玩具 域 上 的 程序 。 





表 3.4 加 权 最 近邻 法 则 的 示例 














任务 是 用 加 权 的 5 近邻 分 类 器 来 决定 对 象 x 的 类 别 , 假 设 x 与 5 个 最 近邻 的 距离 分 别 为 
di= 1,d,= 3,d,= 4,d,= 5 ,d;= 8。 因 为 最 小 值 是 d= 1 ,而 最 大 值 是 py 8 ,所 以 每 一 个 权重 可 












































以 这 样 计算 :w= SOE = 二 和 = 全. 这 样 可 以 给 出 如 下 结果 :ul = 851 = 10, = 
dd 8-1 7 
8-3_5, _8-4_ 4, .8-5_3, .8-8_0 
7 7° 7 PEA 7 7 7 5 
如 果 两 个 最 近邻 属于 正 类 其 他 的 3 个 属于 负 类 , 则 * 将 被 分 到 正 类 , AIE = 
5 = 4 3 
go? = +7 +0. 





另 一 个 值得 注意 的 事情 是 ， 如 果 所 有 的 近邻 点 与 有 相同 的 距离 ， 那 么 按照 
A (3.4) ， 它 们 将 有 同样 的 权重 ， 即 w = 1。 读 者 也 可 以 容易 地 验证 d, =d, 
且 仅 当 所 有 的 个 近邻 点 与 x 有 相同 的 距离 。 





F 你 学 到 了 什么 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 

© 为 什么 我 们 要 考虑 每 一 个 投票 近邻 点 应 该 有 不 同 的 权重 ? 

。 讨论 文中 推荐 的 用 于 计算 单个 权重 的 公式 的 表现 形式 。 
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3.6 移 除 危险 的 样 例 


如 果 所 关心 的 是 分 类 的 程序 ， 则 每 一 个 训练 样 例 的 价值 可 能 是 不 同 的 : 一 些 是 
所 代表 的 类 别 中 典型 的 ， 一些 稍 弱点 , 但 是 男 外 的 一 些 可 能 完全 就 是 误导 。 这 就 是 
为 什么 在 使 用 训练 集 之 前 先 要 对 它 进 行 预 处 理 : 移 除 那些 被 认为 是 无 效 的 样 例 。 

图 3.7 所 述 的 两 种 情形 引出 了 两 个 对 训练 集 进行 预 处 理 的 具体 方法 。 首 先 ， 
一 个 样本 被 标注 为 一 个 类 别 ， 但 是 它 被 其 他 类 别 的 样 例 所 包围 着 ， 那 么 它 很 可 能 
是 由 类 别 标号 噪声 所 造成 的 。 其 次 ， 位 于 两 个 类 的 边界 区 域 的 样 例 是 不 可 靠 的 ， 
因为 它们 的 属性 值 可 以 被 很 小 的 噪声 影响 ， 而 令 它 们 的 位 置 向 着 错误 的 方向 发 生 
改变 ， 进 而 影响 分 类 。 这 两 种 情况 下 的 样 例 最 好 被 移 除 。 























第 二 个 属性 
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第 一 个 属性 
疑似 的 类 别 标号 噪声 
图 3.7 两 种 潜在 有 害 类 型 的 样 例 的 图 示 ( 被 不 同类 别 的 样 例 所 包 
围 的 和 位 于 边界 区 域 的 ) 
托 梅 克 (Tomek) 连接 技术 。 然 而 ， 在 危险 样 例 被 移 除 之 前 ， 它 必须 先 被 检 
测 到 。 一 种 办 法 是 通过 托 梅 克 连 接 技术 ， 这 个 名 字 是 以 几 十 年 前 第 一 个 使 用 它 的 
数学 家 来 命名 的 (顺便 提 一 下 ， 他 是 因 其 他 不 同 的 目的 而 使 用 托 梅 克 连接 的 )。 
一 个 样 例 对 ，x 和 y， 如 果 同 时 满足 如 下 3 个 要 求 ， 则 我 们 就 说 它们 形成 了 一 个 托 
梅 克 连接 .: 


1. x 是 y 的 最 近邻 。 
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2. y 是 x 的 最 近邻 。 

3. x Aly 的 类 别 不 同 。 

这 些 条 件 是 边界 样 例 的 特征 ， 也 是 被 其 他 类 别 的 样 例 所 包围 的 样 例 的 特征 ， 
从 训练 集中 移 除 这 些 样 例 对 是 有 道理 的 。 甚 至 这 些 还 不 够 。 有 时 候 ， 移 除 存 在 的 
托 梅 克 连接 还 会 生成 新 的 托 梅 克 连接 ， 因 此 ， 这 个 程序 必须 重复 执行 多 次 。 

表 3.5 中 的 伪 代 码 总 结 了 这 个 算法 ,图 3. 8 中 展示 了 一 些 托 梅 克 连接 的 例子 。 
注意 ， 这 里 只 有 这 3 对 ， 没 有 其 他 样 例 对 再 满足 托 梅 克 连 接 的 条 件 了 。 









































表 3.5 确认 ( 和 移 除 ) 托 梅 克 连接 的 算法 











1 
2. Sx 是 第 i 个 训练 样 例 ,y 是 x 的 最 近邻 。 

3 Rx 和 y 属于 同一 个 类 别 ， 则 转 到 5。 
4. WR x 是 y 的 最 近邻 ， 则 令 7T=TU |x, y}o 
5 

6 





. 令 7=i+1。 如 果 i<N， 则 转 到 2。 
.从 训练 集中 将 所 有 在 7 中 的 样 例 全 部 移 除 。 























但 存在 一 个 问题 ， 因 为 令 k >1 的 主要 原因 就 是 减轻 噪声 的 消极 影响 ， 然 而 一 
且 移 除 托 梅 克 连接 ， 参 与 投票 的 近邻 个 数 左 也 会 相应 减少 ， 甚 至 有 可 能 出 现 使 用 1 
近邻 分 类 器 就 可 以 取得 左近 邻 分 类 器 在 整个 原始 训练 集 上 所 取得 的 分 类 性 能 。 





y -= 
S + 
n 
z L 
+ 

+----— 

+ 5 
+ 

i = 

a 
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图 3.8 虚线 表示 了 所 有 的 托 梅 克 连 接 。 在 每 个 托 梅 克 连 接 中 ， 每 一 个 参与 
者 都 是 它 同伴 的 最 近邻 ， 而 且 两 个 样 例 是 属于 不 同类 别 的 
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局 限 性 。 没 有 事物 是 完美 的 。 托 梅 克 连 接 技术 并 不 能 检测 到 所 有 导致 错误 的 
样 例 ， 相 反 地 ， 一 些 被 移 除 的 样 例 可 能 是 “无 境 的 ”， 是 应 该 被 保留 的 。 但 是 经 
验证 明 移 除 托 梅 克 连接 确实 改善 了 数据 整体 的 质量 。 工 程 师 需要 注意 以 下 两 种 特 
殊 的 情况 : ( 当 训 练 集 非常 小 的 时 候 ; 包 当 一 类 的 样本 数 显 著 地 多 于 另 一 类 的 时 
候 。 后 一 种 情况 会 在 10. 2 节 再 次 讨论 。 












































efi F ts :学 到 了 什么 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 是 什么 促使 我 们 尝试 清洗 数据 集 的 ? 
o 什么 是 托 梅 克 连接 ? 怎样 从 训练 集中 找到 它们 ? 为 什么 有 时 候 程序 必须 重 
复 执行 多 次 ? 








3.7 移 除 多 余 的 样 例 








一 些 训练 样 例 并 不 会 对 分 类 器 的 性 能 产生 消极 影响 ， 但 是 我 们 还 是 想 移 除 它 
们 。 因 为 即使 它们 的 存在 不 会 降低 错误 率 ， 但 是 增加 了 计算 代价 。 

多 余 的 样 例 。 要 在 一 个 有 10' 个 训练 样 例 ， 每 个 样 例 由 10" 个 属性 描述 的 域 中 
找 最 近邻 (这样 的 域 并 不 稀少 ) ， 使 用 欧 氏 距离 的 程序 需要 执行 10' x 10° = 10" 次 
算术 运算 。 当 任务 是 要 同时 分 类 几 千 个 物体 时 ， 算 术 运 算 的 次 数 就 是 10" x 10° = 
10 ”次 。 这 是 很 大 的 一 个 数字 。 
幸运 的 是 ， 因 为 训练 集 往往 都 是 宛 余 的 ， 所 以 即使 删除 一 些 训练 样 例 ， 也 不 
会 影响 大 近邻 分 类 器 的 性 能 。 甚 至 有 时 候 移 除 大 量 的 样 例 也 没有 太 大 影响 ， 因 为 
这 些 样 例 增加 了 分 类 的 计算 代价 而 对 分 类 性 能 没有 影响 ， 这 就 是 图 3. 9a 所 示 的 
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b) 


图 3.9 


一 致 子 集 。 在 尝 











则 称 $ 是 了 的 一 致 子 集 。 但 是 这 样 的 定义 并 不 是 
TEX SAT, 左近 邻 分 类 需 在 未 知 样 例 上 会 有 怎样 的 ! 





个 标准 : 对 于 任何 的 exe7, DPE ki 


lex! FY, ex 都 获得 相同 的 类 标 ， 





要 找到 最 小 子 集 的 完美 主义 者 应 


效 的 算法 ， 
太 科学 。 








例 被 移 除 


é) 


图 示 当 边界 、 噪 声 和 多 余 样 例 从 训练 集中 移 除 之 后 会 有 什么 变化 
a) 原始 训练 集 b) 边界 和 噪声 样 


c) 多 余 样 例 被 移 除 





试 降低 元 余 度 的 过 程 中 ,我 们 要 将 训练 集 7 替换 为 它 的 一 致 
TES, EREHE, WRH S 蔡 换 7 而 不 影响 


近邻 分 类 器 返回 的 类 别 标号 ， 





近邻 分 类 器 是 基于 了 - 





很 实际 ， 因 为 我 们 并 不 知道 使 用 


生 能 。 因 此 ， 我 们 来 修改 一 下 这 


lex) 的 还 是 基于 S - 








WW S 便 是 了 的 一 致 子 集 。 

通常 一 个 现实 的 训练 集会 有 很 多 个 一 致 子 集 ， 并 且 子 集 越 小 越 好 。 但 是 坚持 
该 明白 : 要 想 总 是 找到 最 小 子 集 需 要 付出 很 大 的 
计算 代价 。 考 虑 实际 情况 的 工程 师 会 怀疑 这 样 做 的 合理 性 ， 他 们 更 倾向 于 更 加 高 























能 够 将 原始 集合 缩小 到 合理 的 规模 ， 尽 管 这 样 的 形式 化 可 能 看 起 来 不 
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构建 一 致 子 集 。 表 3.6 展示 了 一 项 实用 的 技术 。 首 先 ， 这 个 算法 从 每 个 类 中 
随机 选择 一 个 样 例 。 然 后 ， 这 个 初始 子 集 5 被 最 近邻 算法 用 来 评 佑 所 有 训练 样 例 
的 类 标 。 在 这 一 步 ， 很 可 能 有 的 训练 样 例 被 错误 地 分 类 。 这 些 错误 分 类 的 样 例会 
被 加 到 $ 中 ， 继 续 使 用 这 个 更 大 些 的 集合 使 整个 程序 再 重复 运行 。 直 到 集合 $ 变 
得 有 足够 的 代表 性 ， 使 得 最 近邻 分 类 需 能 够 正确 地 标记 所 有 的 训练 样 例 ， 这 时 搜 
索 停止。 









































表 3.6 通过 移 除 一 些 多 余 的 样 例 构建 一 个 一 致 的 训练 子 集 的 算法 





1. 使 得 $ 包含 训练 集 了 中 的 一 个 正 类 样 例 和 一 个 负 类 样 例 。 

2. 基于 5 中 的 样 例 ， 用 最 近邻 分 类 器 对 了 中 的 样 例 重 新 分 类 。 假 设 1 是 这 时 被 错误 分 
类 的 样 例 的 集合 。 

3. 将 下 中 的 样 例 复 制 到 $ 中 。 

.如 果 5 中 的 元 素 未 发 生 改 变 ， 则 算法 停止 ;否则 转 到 步骤 2。 
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F 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 从 训练 集中 移 除 多 余 的 样 例 有 什么 好 处 ? 
。 训练 集 的 一 致 子 集 是 什么 意思 ? 为 什么 不 一 定 总 是 要 找到 最 小 的 一 至 
子 集 ? 
o 解释 构建 一 个 合理 规模 的 一 致 子 集 的 简单 算法 的 原理 。 





3.8 总 结 和 历史 简 评 


© 分 类 对 象 x 的 时 候 ,k 近邻 分 类 融 在 训练 集中 找到 个 与 x 最 相似 的 样 例 , 然 
后 在 这 些 样 例 中 选择 最 常见 的 类 别 标号 。 


。 上 近邻 分 类 器 的 分 类 性 能 很 大 程度 上 依赖 于 属性 向 量 之 间 的 相似 性 的 计算 。 


Èg 


ak 叫 
zE mh 





相似 性 : eR 








可 能 建立 向 量 x 和 ?之 间 相 似 性 最 简单 的 方法 就 是 用 式 (3.5) 计算 得 到 的 几 
何 距 离 ; 





dy(x,y) = (3.5) 


本 质 上 ,对 于 连续 向 量 ,我 们 令 d(x ,7 ) = (zx; y) ;对 于 离散 向 量 , 如 果 





x = y RIS d(a,,7,) = 0,00 a, A y, d(x,y) = 1。 
如 果 所 描述 样 例 的 许多 属性 都 是 无 关 的 , 则 并 近邻 分 类 器 的 性 能 会 很 差 。 另 
一 个 问题 是 关于 属性 值 的 尺度 ， 这 个 问题 可 以 通过 将 属性 值 标准 化 到 单位 
区 间 来 缓解 。 
因为 训练 集中 的 某 些 有 害 样 例会 增加 分 类 错误 率 。 还 有 的 样 例 可 能 是 多 余 
的 ， 因 为 它们 增加 了 计算 代价 却 不 能 改进 分 类 性 能 。 所 以 ， 有 害 的 和 多 余 
的 样 例 应 该 被 移 除 。 
在 一 些 应 用 中 ， 每 一 个 近邻 点 是 有 相同 的 投票 权 的 。 在 另 一 些 应 用 中 ， 根 
据 样 例 与 被 分 类 对 象 间 的 距离 ， 使 用 了 加 权 投 票 机 制 。 
历史 简 评 。 最 近邻 分 类 器 的 思想 最 早 由 菲 克 斯 (Fix) MÆ (Hodges) 
提出 ， 但 是 最 早 地 、 系 统 地 分 析 是 由 卡 湿 (Cover) 、 哈 特 "” (Hart) FMRE 
(Cover) 给 出 的 。 随 后 ， 达 萨 拉 斯 (Dasarathy) 的 书 5 对 它 进行 了 详尽 的 研究 。 
这 里 描述 的 加 权 天 近邻 分 类 器 是 由 杜 达 尼 2 (Dudani) 提出 的 。 哈 特 2 (Hart) 
描述 了 最 早 的 用 于 找到 训练 集 的 一 致 子 集 的 技术 〈 本 章 中 所 介绍 的 是 它 的 一 个 经 
过 小 的 修改 的 版 本 ) 。 托 梅 克 连接 的 概念 由 托 梅 克 "提出 。 


































































































3.9 ”巩固 你 的 知识 











下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 
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练习 


1. 基于 表 3.7 中 的 训练 相 


和 例 ， 使 用 最 近邻 分 类 需 和 3 近 





邻 分 类 器 来 决定 y = 


[1, 22] 的 类 别 。 解 释 为 什么 这 两 个 分 类 融 在 分 类 性 能 上 会 有 不 同 。 


表 3.7 用 于 练习 的 一 个 简单 的 训练 样 例 的 集合 



































LA 1 1 1 2 3 3 3 5 
ty 1 2 4 3 0 2 5 3 
类 别 十 一 = + + + = 一 

2. 基于 表 3.7 中 的 样 例 ,用 5 近邻 分 类 器 来 分 类 物体 y= [3，3]。 注 意 ， 其 








中 两 个 最 近邻 属于 正 类 而 3 个 属于 负 类 。 加 权 的 5 ì 
请 将 样 例 的 位 置 画 出 来 。 





化 吗 ? 为 了 看 清 结果 , i 











近邻 分 类 需 会 有 什么 变 


3. 再 一 次 基于 表 3.7 中 的 训练 样 例 : 中 是 否 存在 托 梅 克 连 接 ? 凶 是 否 可 以 通 


过 移 除 至 少 一 个 多 余 的 训练 样 例 来 找到 训练 集 的 一 个 一 致 子 集 ? 


思考 题 


1. 讨论 将 天 近邻 分 类 需 应 用 于 “ 派 ” 








用 什么 距离 度量 ， 是 否 根 据 距离 来 进行 最 近 
近邻 准则 的 其 他 变 体 ， 


2. 提出 最 


域 的 可 外 





性 。 对 使 用 多 少 个 
近邻 的 投票 等 给 出 一 





可 以 基于 下 面 的 提示 : 


1) 引入 其 他 的 距离 度量 。 不 要 忘 


公理 。 


近邻 点 ， 使 
想法 。 


记 它 们 必须 满足 3.2 节 末 尾 所 提 到 的 

















2) 修改 投票 的 方案 : 通过 假设 一 些 样 例 是 由 一 位 有 知识 的 “老师 ”所 创 
建 的 ， 其 他 的 没有 经 过 对 它们 的 代表 性 的 任何 考虑 而 从 数据 库 中 得 到 。 





老师 的 样 例 显 然 应 


该 拥有 更 大 的 权重 。 





3. 设计 一 个 疏 山 搜索 算法 来 移 除 多 余 样 例 。 提 示 : 初始 的 状态 包含 整个 训练 
攻 影 响 分 类 融 的 表现 ) 。 


集 ， 搜 索 算 子 每 次 移 除 一 个 训练 村 
4. 设计 一 个 疏 山 搜索 算法 来 移 除 不 相关 的 属性 。 提 示 : 保留 一 








EO (这样 的 移 除 不 外 


例 ， 在 其 上 测试 最 近邻 分 类 需 对 不 同属 性 子 集 的 性 能 。 


部 分 训练 样 


‘at 


> A 


SW 


EY 
ae 





相似 性 : 最 近邻 


上 机 实验 





1. 写 一 个 程序 ， 它 的 输入 是 训练 集 、 一 个 用 户 设 定 的 大 值 和 一 个 物体 x。 输 
出 是 x 的 类 别 标号 。 

2. 将 上 机 实验 第 1 题 中 实现 的 程序 应 用 于 一 些 UCI 库 中 的 基准 域 
(www. ics. uci. edu/ ~ mlearn/MLRepository. html) 。 总 是 拿 出 40% 的 样 例 并 
对 它们 在 剩余 的 60% 的 样 例 上 用 最 近邻 分 类 器 进行 分 类 。 

3. 创建 一 个 合成 的 玩具 域 ， 它 包含 1000 个 样 例 ， 每 个 样 例 用 取 值 于 区 间 
[0, 1] 中 的 一 对 属性 来 描述 。 在 由 这 些 属性 值 定义 的 正方 形 [0, 1] x 
[0, 1] 内 ,按照 你 自己 的 选择 定义 一 个 集合 图 形 ， 并 将 在 其 中 的 样 例 标 
注 为 正 类 ， 其 他 的 样 例 标注 为 负 类 。 由 这 个 初始 的 没有 噪声 的 数据 集 创 建 
5 个 数据 集 ， 每 一 个 通过 改变 p% 的 类 别 标号 得 到 ，p s 15，10，15 20, 
25} (这 样 就 得 到 了 不 同 水 平 的 类 别 标号 噪声 ) 。 将 每 个 数据 集 划 分 为 两 个 
部 分 ， 第 一 部 分 将 由 基于 第 二 部 分 的 上 近邻 分 类 器 重新 进行 分 类 。 观 察 不 
同 的 大 值 在 不 同 水 平 的 类 别 标号 噪声 条 件 下 的 不 同 表现 。 

4. 实现 托 梅 克 连 接 方法 以 移 除 有 害 的 样 例 。 使 用 左近 邻 分 类 器 对 移 除 后 剩 下 
的 样 例 进 行 重 复 实 验 ， 比 较 得 到 的 结果 。 观 察 对 于 不 同 的 大 值 和 不 同 的 噪 
声 水 平 ， 移 除 操作 对 于 近邻 分 类 器 的 分 类 行为 有 怎样 的 影响 。 
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当 将 训练 样 例 表 示 为 n 维 样本 空间 的 点 时 ,我 们 可 能 会 意识 到 正 类 样 例 和 负 
类 样 例 都 倾向 于 聚集 在 一 起 ， 且 二 者 所 占据 的 区 域 是 不 同 的 。 这 个 观察 促使 我 们 
考虑 分 类 的 男 一 个 方法 。 不 同 于 之 前 所 用 到 的 概率 和 相似 性 ， 我 们 可 以 试 着 确定 
将 两 类 分 开 的 决策 面 。 这 样 的 话 ， 一 个 非常 简单 的 可 行 方法 就 是 使 用 一 个 线性 函 
数 。 更 加 灵活 的 是 高 阶 的 多 项 式 ， 它 们 可 以 定义 非常 复杂 的 类 间 边 界 。 不 过 ， 这 
些 方法 都 必须 谨慎 地 操作 。 

本 章 介绍 两 种 简单 的 途径 来 从 由 布尔 属性 描述 的 样 例 中 引出 线性 分 类 器 ， 然 
后 讨论 如 何在 更 一 般 的 域 中 使 用 它们 ， 如 数值 属性 的 域 和 多 于 两 个 类 的 域 。 然 后 ， 
将 所 有 的 思想 推广 到 多 项 式 分 类 咒 上 。 



























































4.1 本 质 























从 现在 开始 ， 我 们 仅 考虑 布尔 域 ， 这 里 每 个 属性 或 是 true 或 是 false， 为 了 使 得 

这 些 属 性 能 够 融 人 代数 函数 ， 我 们 用 整数 来 表示 它们 : 用 1 表示 true, 0 表示 false, 
线性 分 类 器 。 在 图 4.1 中 ， 一 个 样 例 被 标记 为 正 类 ， 剩 余 的 3 个 被 标记 为 负 

类 。 在 这 个 特殊 的 例子 中 ， 两 类 可 以 通过 式 (4.1) 所 定义 的 线性 函数 分 割 开 : 
-1.2+0.5x +x, =0 (4.1) 











—1.2+0.5x,+x,=0 

















x,| x, —1.2+0.5x,+x, | 类 别 

1] 1 0.3 pos 

1 | 0 =0.7 neg 

0 | 1 一 0.2 neg 

0 | 0 =1.2 neg 
0$- o— 








1 xy 


图 4.1 线性 分 类 器 在 有 两 个 类 别 和 两 个 属性 的 域 中 的 应 用 (用 工 代 替 
true, 0 代替 false) 








在 这 个 表达 式 的 左 侧 ，%, Ma 代表 了 属性 。 如 果 我 们 用 一 个 给 定 样 例 的 具体 
值 来 替换 a, 和 x,， 则 表达 式 - 1.2 +0.5xi +% 将 变 成 一 个 正 数 或 一 个 负数 。 然 


E 1h 


z 


A 


SW 


4 
类 





类 间 边 界 : 线性 和 多 项 式 


后 ， 这 个 数 的 符号 决定 了 样 例 的 类 别 。 图 4. 1 右 侧 的 表格 展示 了 左 侧 的 4 个 样 例 
是 如 何 被 分 类 的 。 

式 (4.1) 并 不 是 唯一 的 可 以 解决 这 个 问题 的 方法 。 其 他 的 表达 式 ， 如 -1.5 
tx, +% ， 也 可 以 按照 完全 相同 的 方式 来 标记 这 4 个 样 例 。 实 际 上 ， 无 限 多 的 有 如 
下 一 般 形式 的 不 同 的 分 类 器 都 可 以 取得 一 样 的 结果 . 

wo +wx, +w,x, =0 

这 很 容易 推广 到 有 nn 个 属性 的 域 . 

Wo +wx to + wa%, =O (4.2) 

MAR n=2, MR (4.2) 定义 了 一 条 直线 ， 如 果 n =3， 则 是 一 个 平面 ; 如果 
n>3， 则 是 一 个 超 平面 。 顺 便 说 一 下 ， 如 果 我 们 人 为 地 引入 一 个 第 0 个 属性 x， 
它 的 值 总 是 固定 为 x,。=1， 则 式 (4.2) 可 以 重 写 为 更 加 简洁 的 形式 : 


























È wa = 0 (4.3) 

一 些 实际 的 问题 。 当 编写 计算 机 程序 来 运行 线性 分 类 器 的 时 候 ， 干 万 不 能 
忘记 决定 怎样 标记 那些 恰好 位 于 超 平 面 上 的 、 使 得 表达 式 等 于 0 的 、 很 少 的 样 
例 。 普 遍 做 法 是 随机 地 选择 一 个 类 别 或 选择 那个 在 训练 集中 拥有 更 多 代表 的 
Kal, 

同样 ， 我 们 也 不 能 忘记 如 果 两 类 不 是 线性 可 分 的 ， 那 就 没有 一 个 线性 分 类 器 可 
以 将 正 类 和 人 负 类 样本 分 开 。 因 此 ， 在 图 4.1 中 ， 如 果 我 们 将 x = (x,,， x,) = (0, 0) 
的 类 别 标号 由 负 改 为 正 ， 就 没有 一 条 直线 可 以 成 功 分 类 了 。 我 们 将 这 个 问题 的 进 
一 步 讨论 推迟 到 4.5 节 。 就 目前 来 说 ,我 们 仅 考虑 类 别 是 线性 可 分 的 域 。 

参数 。 分 类 絮 的 表现 决定 于 其 中 的 系数 一 一 w;。 它 们 通常 也 被 称 为 权重 。 机 
融 学 习 的 任务 就 是 要 找到 它们 合适 的 取 值 。 

并 不 是 所 有 的 权重 都 扮演 着 相同 的 角色 。 从 几何 上 来 说 ， 系 数 w ，…，w, 定 
义 了 超 平面 关于 坐标 系 的 角度 ; w 称 为 偏差 .决定 了 偏 移 量 ， 即 超 平面 到 坐标 系 
原点 的 距离 。 

偏差 和 阅 值 。 在 图 4.1 描述 的 例子 中 ,偏差 w = -1.2。 一 个 更 大 的 值 会 使 分 
Zea ER ( (0, 0)) 平移 得 更 远 ， 不 过 w。 =0 会 使 分 类 器 与 原点 相交 。 如 果 我 
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们 按照 如 下 方式 重 写 式 (4.2) ， 则 我 们 对 偏差 项 在 分 类 需 中 的 作用 的 直观 理解 会 
有 所 改进 : 
wx, to t+w,x, =0 (4.4) 
式 (4.4) 右边 的 项 : 9= -w。， 是 一 个 阐 值 ， 如 果 一 个 样 例 要 被 划分 到 正 类 ， 
那么 加 权 和 一 定 要 超过 这 个 阔 值 。 注 意 ， 这 个 阔 值 等 于 负 的 偏差 项 。 
简单 的 逻辑 函数 。 让 我 们 通过 (有 点 儿 极 端 地 ) 要 求 所 有 的 属性 都 有 相同 的 
IE (Bw, =1) 来 简化 我 们 考虑 的 问题 。 即 使 是 在 这 样 的 约束 之 下 ， 仔 细 地 选 
择 阐 值 也 能 获得 一 些 有 用 的 函数 。 例 如 ,读者 可 以 很 容易 地 验证 ， 以 下 的 分 类 器 
返回 正 类 当 且 仅 当 每 一 个 属性 都 有 *; =1， 这 种 情况 被 称 为 逻辑 与 : 
x te +x, =n-0.5, (4.5) 
不 同 地 ， 如 果 至 少 有 一 个 属性 是 x, = 1, SP SK LESS, CR 
况 被 称 为 逻辑 或 : 










































































a, te +x, =0.5 (4.6) 
Bn, WRES k NBE (在 总 共 的 n 个 属性 中 ) 是 x =1, WP oat 
就 返回 正 类 。 这 表示 的 是 所 谓 的 寺中 有 Lo) 函数 ,“ 与 ”和 “或 ”都 是 它 的 
RATES: “A” Fen PA n(n-of-n), “R” gen PA 1(1-of-n) o 
a, te +x, =h-0.5 (4.7) 
权重 。 现 在 我 们 已 经 理解 了 偏差 的 作用 ， 那 我 们 放弃 所 有 权重 都 相等 的 约束 ， 
来 看 一 下 它们 取 具 体 值 的 结果 。 考 虑 由 如 下 函数 定义 的 线性 分 类 器 : 
2 +3x, -2x, +0. Ix, -0. 5x, =0 (4.8) 
在 表达 式 中 ， 第 一 个 要 注意 的 是 在 等 号 左 侧 ， 属 性 x; 和 xs 的 缺失 。 因 为 它们 
的 权重 为 0， 即 w, =ws =0， 它 们 更 倾向 于 是 不 相关 的 。 对 于 其 他 属性 ， 它 们 的 影 
响 决 定 于 它们 权 值 的 绝对 值 和 符号 : 如 果 w; >0, ABA x, =1 增加 了 表达 式 为 正 的 
PLA; WR w, <0, 那么 zx =1 增加 了 表达 式 为 负 的 机 会 。 注 意 ， 在 这 个 由 式 
(4.8) 所 定义 的 分 类 器 的 例子 中 ， 因 为 w >w, PA x 比 更 加 支持 正 类 。 同 
样 地 ，x, 的 影响 要 比 x 的 影响 大 很 多 ， 仪 仅 是 在 相反 的 方向 ; 减少 总 和 的 值 ， 这 
个 权重 使 得 一 个 =1 的 样 例 更 容易 被 认为 是 属于 负 类 的 。 最 后 ， 非 常 小 的 zw 的 
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值 使 得 属性 x 几乎 是 不 相关 的 。 
作为 另外 的 一 个 例子 ， 考 虑 由 以 下 函数 定义 的 分 类 央 : 
2%, +x, +%, =1.5 (4.9) 
XE, hs, =1 的 单独 地 出 现 (因为 2x, =2 .1>1.5) 或 通过 x, =1 和 x, =1 
的 组 合 起 来 的 贡献 ， 都 会 使 得 阔 值 超过 1. 5。 这 意味 着 ,x, 会 在 投票 中 胜 过 另外 
两 个 属性 ， 即 使 是 在 x, 和 xs 联合 起 来 支持 负 类 的 情况 下 。 















































低 的 计算 代价 。 注 意 这 个 方法 相对 比较 低 的 计算 代价 。 最 近邻 分 类 器 需要 评 
佑 许多 的 几何 距离 ， 然 后 在 其 中 找到 最 小 的 一 个 ， 而 线性 分 类 需 只 需要 决定 一 个 





相对 简单 的 表达 式 的 符号 。 


P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 写 出 在 有 4 个 布尔 属性 的 域 中 定义 线性 分 类 器 的 一 般 表达 式 。 为 什么 我 们 
倾向 于 将 true 和 false 分 别 用 1 和 0 来 表示 ? 线性 分 类 器 如 何 决 定 一 个 样 例 
的 类 别 ? 

。 用 一 个 线性 分 类 器 如 何 实 现 “ 与 ”函数 、“ 或 ”函数 和 nn 中 有 上 函数 ? 
o 解释 和 讨论 由 表达 式 -2.5 +x,+2x3 =0 所 定义 的 线性 分 类 器 的 行为 。 权 
重 可 以 告诉 我 们 关于 各 个 属性 的 哪些 信息 ? 


© 比较 线性 分 类 器 和 最 近邻 分 类 器 的 计算 代价 。 














4.2 ”加 法 规则 : 感知 机 学 习 





我 们 已 经 对 线性 分 类 器 是 如 何 工 作 的 有 了 一 定 的 了 解 ， 下 面 我 们 更 进一步 地 
观察 如 何 从 训练 数据 归纳 学 习 出 这 个 工具 。 

学 习 任务 。 我 们 假设 每 个 训练 样 例 x 是 由 nn 个 二 值 属性 来 描述 的 ， 属 性 值 x， 
=1 或 x,=0。 一 个 正 类 样 例 用 c(x) =1 来 标记 ,一 个 负 类 样 例 用 c(x) =0 RER 
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记 。 为 了 确保 我 们 不 会 将 一 个 样 例 的 真实 类 别 与 分 类 咒 返 回 的 类 别 相 混 消 ， 我 们 
用 h(x) 来 标记 后 者 ， 这 里 hh 表明 这 是 分 类 絮 的 假设 。 如 果 > wix; >0， 则 分 类 

















器 假设 样 例 局 于 正 类 ， 因 此 返回 A(x) = 1。 相 反 地 ， 如 果 È wx <0， 则 分 类 器 
返回 h(x) =0。 图 4 2 说 明 分 类 器 将 «标记 为 正 类 仅 当 倾 向 于 这 一 类 的 累积 的 证 
据 超过 0 时 。 

A(Lwx;) 


1 


0 Lwyx; 


图 4.2 % Sux, > 0 时 ,线性 分 类 器 输出 h(x) = 154 wa, 
< 0 时 ,输出 h(x) = 0, 分 别 表示 样 例 属于 正 类 或 负 类 





最 后 ， 我 们 假设 c(x) =1 和 c(x) =0 的 样 例 是 线性 可 分 的 。 这 意味 着 ， 存 在 
一 个 线性 分 类 器 ， 它 可 以 正确 标记 所 有 训练 样 例 ， 即 h(x) =c(z) 。 机 器 学 习 的 任 
务 就 是 要 找到 权重 w ， 以 达到 这 个 目的 。 

从 错误 中 学 习 。 这 里 是 归纳 学 习 线 性 分 类 器 的 最 普遍 方法 的 本 质 。 假 设 
我 们 已 经 有 了 一 个 分 类 器 的 中 间 版 本 (甚至 是 不 完美 的 ) 。 当 给 定 一 个 训练 样 
例 x 时， 分 类 器 返回 它 的 类 标 (x) 。 如 果 它 不 同 于 真实 的 类 标 ， 即 h(x) 4 
c(z) ， 这 是 因为 权重 还 不 够 完美 。 因 此 ， 必 须 以 一 种 可 能 会 纠正 错误 的 方式 
来 修改 它们 。 

这 里 是 如 何 完成 权重 的 修改 呢 ? 令 真实 的 类 别 是 c(x) =1， 这 时 ,h(x) =0 
只 能 是 > wx, <0， 说 明 权重 都 太 小 了 。 如 果 我 们 增 大 权重 ， 那 和 式 > wx, 
能 会 超过 0， 使 得 返回 的 类 标 为 正 ， 而 成 为 正确 的 。 注 意 ， 只 要 增加 x =1 的 属性 
对 应 的 权重 即 可 。 当 x, =0 时 ，w 的 值 并 不 重要 ， 因 为 任何 数 乘 以 0 还 
BVO « w, =0, 

相似 地 ， 如 果 c(x) =0, h(x) =1, «, =1 的 属性 对 应 的 权重 都 应 该 减 小 ， 以 
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使 和 式 小 于 0, 即 > wx, <0。 
权重 调整 公式 。 总 结 一 下 ， 一 个 训练 样 例 的 出 现 会 导致 3 种 不 同 的 情况 发 
生 。 基 于 “从 错误 中 学 习 ” 的 技术 按照 下 表 来 应 对 它们 














情 况 操 作 
c(x) =1, h(x) =0 对 x; =1 的 属性 ， 增 加 w 的 值 
c(x) =0, h(x) =1 Xa, =1 的 属性 ,减少 w, 的 值 

c(x) =h(x) 什么 都 不 做 





有 趣 的 是 ， 所 有 这 些 操作 都 可 以 根据 式 (4.10) 来 执行 : 


w,=w; ++ [e(x) —h(x)] x (4. 10) 


我 们 来 看 一 下 这 个 权重 调整 公式 的 一 些 基本 方面 : 


1. 




















纠正 措施 。 如 果 elx) =h(x)， 则 括号 中 的 项 [c(x) -h(x)] =0, w, 保持 
KÆ, WR c(xz) =1, A(x) =0， 则 括号 中 的 项 值 为 1， 权 重 增 加 。 如 果 
c(x) =0, A(x) =1， 则 括号 中 的 项 为 负 ， 权 重 减 小 。 





， 仅 影 响 相关 权重 。 如 果 * =0， 加 到 第 i 个 权重 上 的 项 my [e(x) -h(x)] 0 

















是 0。 这 意味 着 ， 式 (4. 10) RX x, =1 对 应 的 w, 起 作用 。 


.变化 的 量 。 它 由 学 习 率 n 来 控制 ， 它 的 用 户 设 定 的 值 是 从 区 间 ne (0, 1] 


中 选择 得 到 。 




















注意 ， 权 重 的 修改 是 加 法 的 ， 因 为 是 有 一 项 加 到 了 前 一 个 权重 上 。 在 4.3 W, 
我 们 将 讨论 另 一 种 可 能 性 : 一 个 乘法 的 公式 。 

感知 机 学 习 算法 。 式 (4.10) 构成 了 感知 机 学 习 算法 的 核心 〈 它 的 作者 是 罗 
BRAG "RF (M. Rosenblatt) ， 原 本 是 将 这 个 学 习 技术 用 在 了 一 个 他 称 之 为 感知 机 的 
设备 上 ) 。 表 4. 1 中 的 伪 代 码 总 结 了 它 的 算法 步骤。 原理 很 简单 。 一 开始 权重 被 初 
始 化 为 小 的 随机 值 ， 然 后 以 每 次 一 个 的 方式 加 入 训练 样 例 。 每 个 样 例 出 现 之 后 ， 
分 类 需 的 权重 就 被 提交 给 式 〈4. 10) 。 最 后 的 训练 样 例 标 志 着 一 轮训 练 阶段 的 完 
成 。 除 非 分 类 需 现 在 可 以 正确 标注 整个 训练 集 ， 学 习 噩 将 返回 第 一 个 样 例 ， 这 样 
开始 第 二 个 轮 次 的 学 习 ， 然 后 第 三 个 ……。 基 本 上 ， 为 了 达到 目标 ， 是 需要 若干 
轮 的 学 习 的 。 
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表 4.1 感知 机 学 习 算法 
假设 : 两 类 ， 即 c(x) =1 和 ec(xz) =0， 是 线性 可 分 的 。 
1. 初始 化 所 有 的 权重 w, 为 小 的 随机 数 。 选 择 一 个 合适 的 学 习 率 : ne (0, 1]. 
2. 对 于 每 个 训练 样 例 ，x = (x ，…，x,) ， 它 的 类 标 c(x) : 











1) WR > wx,>0, WS h(x) =1, AM h(x) =0。 
i=0 





2) 使 用 公式 更 新 权重 ， 即 ww =w; +7 [ce(xz) -h(x)] -xo 
3. 如 果 对 于 所 有 训练 样 例 cx) =h(x) ， 则 算法 停止 ， 否则 ， 返 回 第 2 步 。 

















一 个 数值 例子 。 表 4.2 展示 了 在 一 个 玩具 域 上 的 程序 执行 过 程 ， 这 个 域 有 3 
个 训练 样 例 ，e, e 和 e;， 它 们 都 是 由 两 个 二 值 的 属性 来 描述 的 。 对 e, 进行 训练 
之 后 ， 因 为 h(x) =1 而 c(x) =0， 所 以 权重 应 该 减 小 (初始 是 随机 的 ); 然而 ， 它 
只 发 生 在 w, Mw 上 ， 因 为 x, =0。 当 训练 e, 之 后 ， 新 版 本 的 分 类 器 的 权重 都 增 
加 ， 因 为 h(x) =0 而 c(x) =1， 而 且 所 有 属性 都 有 x; =1。 训 练 e 之 后 , h(x) =1 
而 c(x) =0 的 结果 导致 了 wo 的 减 小 ,但 是 因为 x, =x, =0， 所 以 其 他 两 个 权重 不 
变 。 现 在 ， 分 类 器 正确 地 标记 了 所 有 的 训练 样 例 ， 因 此 这 个 过 程 可 以 终止 了 。 

初始 的 权重 与 属性 的 个 数 。 训 练 在 一 个 阶段 之 后 就 产生 了 正确 的 分 类 器 ,但 这 
仅仅 是 因为 一 些 幸运 的 选择 ， 它 们 扮演 了 关键 的 角色 。 我 们 简单 对 它们 做 下 讨论 。 

首先 是 (随机 的 ) 初始 权重 的 集合 。 不 同 的 初始 化 可 能 会 导致 不 同 的 学 习 阶 
段 个 数 。 多 数 情 况 下 ， 分 类 器 的 初始 版 本 是 几乎 没 用 的 ， 在 训练 过 程 收敛 到 有 效 
值 之 前 需要 大 量 的 训练 。 不 过 ， 有 时 候 第 一 个 版 本 是 相当 好 的 ， 仅 一 个 阶段 的 学 
习 即 可 达到 目标 。 在 极端 的 情况 下 ， 存 在 极其 微小 的 可 能 性 ， 随 机 数 生 成 器 可 以 
产生 一 个 能 完全 正确 地 标记 所 有 训练 样本 的 分 类 器 ， 而 不 需要 任何 训练 。 












































表 4.2 图 示 感 知 机 学 习 
令 学 习 率 7=0.5,，( 随 机 产生 的 ) 初始 权重 为 w。 =0.1、w =0.3 M w, =0.4，xo =1。 
任务 : 使 用 如 下 的 训练 集 ， 感 知 机 学 习 算法 是 要 学 习 如 何 将 负 类 样 例 e, 和 e, 与 正 类 
样 例 e DEIF o 






































样 例 P3 T 
e 1 0 0 
e, 1 1 1 
e, 0 1 0 
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(2) 


线性 分 类 器 关于 x 的 类 别 的 假设 是 : 如 果 È wx, >0, h(x) =1, RZ, h(x) =0。 每 








一 个 样 例 出 现 之 后 ， 所 有 权重 按照 同一 个 公式 来 调整 ， 即 w =w+0.5， [e(x) -h(x) ] 


下 表 逐 步 地 显示 了 在 学 习 的 过 程 中 权重 的 变化 情况 。 







































































%, | x | w | w | mw, | h(x) | e(x) | e(x) -h(x) 
随机 分 类 器 0.1 | 0.3 | 0.4 
样 例 e, 1 0 1 0 -1 
新 分 类 央 -0.4| -0.2| 0.4 
样 例 e, 1 1 0 1 1 
新 分 类 器 0.1 | 0.3 | 0.9 
样 例 e; 0 0 1 0 -1 
最 后 版 本 的 分 类 器 -0.4| 0.3 | 0.9 
最 后 版 本 的 分 类 器 : -0.4 +0. 3x, +0.9x, =0， 不 再 错 分 任何 一 个 训练 样 例 了 。 因 此 ， 








训练 经 过 一 轮 就 完成 了 。 











另 一 个 因素 是 属性 向 量 的 长 度 。 一 般 来 说 ， 需 要 的 训练 阶段 数 趋 向 于 关 
于 属性 个 数 线性 增长 〈 假 如 使 用 相同 的 学 习 率 7 了) 。 例 如 ， 在 一 个 有 3 xz 个 
属性 的 域 中 需要 的 训练 阶段 数 可 能 是 一 个 有 个 属性 的 域 所 需 的 训练 阶段 数 
的 3 倍 。 

学 习 率 。 学 习 率 ”扮演 了 一 个 很 关键 的 角色 。 回 到 表 4.2 中 的 例子 ,读者 会 
注意 到 权重 的 快速 变化 。e, 出 现 之 后 ，w。 从 0.1 跳 到 了 -0.4，e, 出 现 之 后 ， 又 
回 到 了 0. 1，e; 出 现 之 后 ， 又 回 到 -0.4。w, Mw, 也 经 历 了 类 似 的 变化 。 图 4.3 
描述 了 这 个 现象 。 读 者 很 容易 可 以 验证 4 条 线 代 表 了 分 类 器 连续 的 4 个 版 本 。 例 
如 ， 请 注意 ， 从 分 类 器 1 到 分 类 器 2 的 变化 和 从 分 类 器 2 到 分 类 器 3 的 变化 是 多 
么 富有 戏剧 性 。 
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图 4.3 表 4.2 中 的 4 个 分 类 器 。 由 初始 权重 定义 的 分 类 器 用 1 来 标记 ， 
数字 2 和 3 代表 了 两 个 中 间 步 骤 ，4 是 最 后 的 解 ， 箭 头 指示 了 
正 类 样 例 所 在 的 半 和 平面 
这 种 异常 的 敏感 性 来 自 于 高 的 学 习 率 ”=0.5。 一 个 小 的 值 ， 如 ”m = 0.1， 会 减 
缓 这 种 变化 ， 因 此 使 得 学 习 更 加 平滑 。 但 是 如 果 我 们 做 得 太 过 了 ， 如 选择 7 = 
0. 001 ， 则 训练 过 程 就 会 变 得 非常 慢 ， 而 且 在 所 有 训练 样 例 都 被 正确 分 类 之 前 会 经 
过 非常 多 轮 的 训练 阶段 。 
如 果 解 存在 ， 那 它 一 定 会 被 找到 。 不 要 忘记 ， 是 在 类 分 割 超 平面 存在 的 前 提 
F, 不论 初始 权重 、 属 性 个 数 和 学 习 率 是 什么 , 感知 机 学 习 算法 保证 可 以 在 有 限 
的 步 又 内 找到 类 分 割 超 平面 。 




















Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 在 什么 样 的 条 件 下 ， 感 知 机 学 习 保 证 可 以 找到 一 个 将 所 有 训练 样 例 都 正确 
标记 的 分 类 器 ? 
eC 算法 什么 时 候 减 小 分 类 器 的 权重 ， 什 么 时 候 增 加 它们 ， 什 么 时 候 不 改变 它 
们 ? 为 什么 只 有 对 应 的 属性 值 x; =1 时 才 改 进 w;? 
© 什么 会 影响 算法 收敛 到 一 个 解 所 需 的 学 习 轮 数 ? 











4.3 乘法 规则 : WINNOW 


感知 机 学 
一 个 正 的 或 负 





算法 。 


假设 : WX, 即 c(x) =1 和 c(x) =0， 
1. 初始 化 分 类 器 的 权重 





2. W 





习 通 
的 项 。 

















=2). 
3. 给 出 





4. 如 果 c( 
1) my 


设置 闷 值 9=n -0.1(n 是 


一 个 训练 样 例 x， 


x) #h(x), 
Rc(x) =l, 





2) 如 及 


5. 如 果 对 于 所 有 训练 样 例 ，c(x) =h(x)， 





原理 和 公式 。 基 本 方案 与 4 2 节 中 的 一 样 。 








应 用 加 法 规则 来 啊 应 


边界 ， 


第 4 章 





线性 


和 多 项 式 分 类 


器 


Y 分 类 器 的 错误 ， 也 就 是 在 权重 上 增加 








表 4.3 WINNOW 算法 


EON w, =1, 
属性 的 个 数 ) , 





它 的 类 别 是 c(x 














并 给 参数 a > 1 选择 


一 个 明显 的 代替 方式 就 是 用 乘法 规则 ， 
是 加 上 某 一 项 。WINNOW 就 采取 了 这 样 的 方法 ， 表 4.3 中 的 伪 代 码 总 结 


是 线性 可 分 的 。 








在 权重 上 乘 以 而 不 




















一 个 合适 的 值 (通常 w 


) ， 分 类 器 输出 是 h(x) 。 
对 值 为 x, =1 的 属性 对 应 的 权重 进行 更 新 : 


h(x) =0, Ww, =aw,, 


Re(x) =0, h(x) =1, Ww, =w,/a, 


























则 算法 停止 


AMER 


否则 ， 





返回 第 3 





例 x 参与 训练 后 ， 











分 


























类 带 返 回 对 这 个 样 例 的 类 标的 假设 h(x) 。 学 习 带 比较 这 个 假设 与 已 知 的 真实 类 标 
c(x) ， 如 果 两 个 类 标 不 同 ， 即 c(x) 关 h(x)， 则 对 值 为 x, =1 的 属性 对 应 的 权重 
按照 如 下 方式 进行 修改 (这 里 a >1 是 用 户 设 定 的 一 个 参数 ) : 

情 况 操 作 

c(x) =1, h(x) = Ww; = aw, 

c(x) =0, h(x) =1 w, =w,/a 

e(x) =h(x) 什么 都 不 做 

我 们 鼓励 读者 来 验证 所 有 的 这 3 个 操作 可 以 通过 式 (4. 11) 来 执行 

w, =w; 0 (4.11) 
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一 个 数值 例子 。 表 4. 4 在 一 个 简单 的 玩具 域 上 展示 了 WINNOW 的 原理 。 训 练 
集 包 含 了 所 有 可 以 用 3 个 二 值 属 性 描述 的 样 例 。 那 些 =a, =1 的 样 例 被 标记 为 正 
类 ， 其 余 的 被 标记 为 负 类 ， 不管 (不 相关 的 ) 属性 的 x 的 值 是 多 少 。 
































表 4.4 图 示 WINNOW 的 表现 














H 





任务 : 使 用 (下边 ) 左边 表格 中 的 训练 样 例 ， 归 纳 学 习 线性 分 类 器 。 令 w =2，0 = 
2.9。 注 意 ， 这 里 的 训练 通过 两 步 来 实现 : e RHK) 和 e, RIER) 的 训练 。 这 两 




























































































步 权重 修改 之 后 ， 所 得 到 的 分 类 需 就 可 以 对 所 有 训练 样 例 进 行 正 确 分 类 了 。 
Xl Xa X3 c(x) 
e 1 1 1 1 x, | % | x | w, | w | w, | h(x) | e(x) 
e 11/00] | 初始 分 类 器 laida 
Ee a ile, | 0 | 1 | 4 0 | 1 
e, | 1 0 0 0 
新 的 权重 1/2 ]2 
e | 0 ]1]/1 4] 1 
eolllolo 样 例 e, 1|10 .1 1 | 0 
e |0]/0]1 .0 新 的 权重 0.5| 2 | 1 
ee | 0 | 0 }|0/] 0 























在 感知 机 学 习 中 ， 权 重 是 被 初始 化 为 小 的 随机 值 。 然 而 ， 对 于 WINNOW， 它 
们 都 被 初始 化 为 1。 对 于 阔 值 ， 使 用 了 稍微 小 于 属性 的 个 数 的 9=n -0.1。 在 
表 4. 4 的 玩具 域 中 ， 这 意味 着 0 =3 -0.1=2.9， 因 为 WINNOW 对 一 个 属性 是 否 无 
关 没 有 先 验 认识 。 

当前 4 个 样 例 参 与 训练 之 后 ， 分 类 器 的 初始 版 本 都 可 以 正确 地 标记 它们 。 第 
一 个 错误 出 现在 es 出 现时 : 对 于 这 个 正 类 样 例 ， 分 类 器 错误 地 返回 了 负 类 的 类 标 。 
因此 ， 学 习 器 增加 了 x, =1 的 属性 对 应 的 权重 (也 就 是 w 和 wm ) 。 这 个 新 的 分 类 
器 然后 正确 分 类 了 所 有 剩余 的 样 例 ，es ~ es。 在 第 二 个 学 习 阶 段 ， 分 类 器 在 e 上 
犯 了 错误 ， 造 成 了 一 个 假 的 正 类 预测 。 相 应 于 这 个 错误 ， 算 法 减少 了 w, All w, 的 
权重 (但 没有 w,， 因 为 *, =0) 。 这 次 最 后 的 权重 修改 之 后 ， 分 类 器 就 可 以 正确 标 
记 整 个 训练 集 了 (类似 于 感知 机 学 习 的 情况 ,我 们 可 以 考虑 使 用 第 0 个 属性 ， 
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xo =1， 它 的 初始 权重 是 wo =1) 。 

注意 ， 这 时 不 相关 属性 x, 的 权重 是 要 小 于 相关 属性 的 权重 的 。 实 际 上 ， 通 过 
显著 降低 不 相关 属性 的 权重 来 削弱 它们 的 影响 ， 即 “ 接 除 它们 ”， 是 这 个 技术 的 
主要 优势 之 一 。 

参数 ay BM a 以 类 似 于 感知 机 学 习 中 的 学 习 率 的 方式 来 控制 学 习 器 对 错误 
的 敏感 性 。 主 要 的 不 同 就 是 a > 1 的 要 求 ， 这 保证 了 在 假 的 负 类 的 情况 下 权重 w, 
的 增加 和 假 的 正 类 的 情况 下 权重 w 的 减少 。 这 个 参数 的 具体 取 值 是 完全 任意 的 。 
如 果 它 只 是 略微 超过 1( 如 a=1.1)， 那么 权重 的 更 新 会 非常 慢 ， 从 而 导致 慢 的 收 
敛 速度 。 增 加 a 的 值 会 加 快 收 全 ,但 是 会 有 得 不 到 解 的 风险 。 理 想 的 值 最 好 通过 
实验 获得 ; 好 的 结果 经 常 是 在 a =2 时 取得 的 。 

没有 负 的 权重 ? 让 我 们 指出 一 个 WINNOW 和 感知 机 学 习 的 根本 不 同 。 因 为 初 
始 为 正 的 权重 总 是 乘 以 a 或 1/e， 所 以 它们 永远 不 会 降 到 0， 更 别 说 负数 了 。 这 就 
是 说 ， 除 非 采取 合适 的 措施 ， 否 则 一 大 类 的 线性 分 类 器 会 因此 消失 ， 那些 有 负 值 
或 以 0 作为 系数 的 。 

如 果 我 们 将 每 一 个 原始 属性 用 一 对 新 的 属性 来 替换 ， 则 可 以 弥补 这 个 缺点 : 
一 个 取 原 来 的 属性 值 ， 另 一 个 取 相 反 的 值 。 在 一 个 原来 有 个 属性 的 域 ， 总 的 属 
性 数 将 是 2n，, B n +i DEERME x, Wi a 取 反 。 例 如 ， 假 设 一 个 样 例 由 下 面 
的 3 个 属性 值 来 描述 : x =1, », =0, x, =1。 在 新 的 表示 中 ， 同 一 个 样 例 将 由 6 
个 属性 来 描述 : x, =1, x, =0, x, =1, x, =0, xs =1，x =0。 

对 于 这 些 值 ，WINNOW 会 找到 6 ARAE, Bw, =, w, 或 者 可 能 是 7 个 ， 
如 果 包 括 wo 的 话 。 

与 感知 机 比较 。 对 比 感知 机 ，WINNOW 看 起 来 在 有 不 相关 属性 的 域 会 收敛 得 
更 快 一 些 ， 因 为 不 相关 属性 的 权重 会 很 快 下 降 到 很 小 的 值 。 但 是 ，WINNOW 和 感 
知 机 都 不 能 识别 (MAR) 宛 余 属性 。 在 两 个 属性 总 是 有 相同 值 的 情况 下 ， 
x; =%;， 对 于 它们 学 习 过 程 将 会 收敛 到 同样 的 权重 ,使 得 它们 看 起 来 一 样 重要 ， 即 
使 很 显然 它们 中 只 有 一 个 是 有 用 的 。 
































































































































083 


084 


| 机 器 学 习 导论 


FMF ENT TA? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© WINNOW 的 权重 更 新 机 制 采 用 了 什么 样 的 公式 ? 为 什么 这 个 公式 被 称 为 是 
乘法 的 ? 
© 用 a>1l 来 乘 以 或 除 以 权重 有 什么 不 足 之 处 ? 这 种 不 足 该 如 何 补 救 ? 
© 总 结 WINNOW 和 感知 机 学 习 的 不 同 点 。 








4.4 多 于 两 个 类 的 域 





超 平面 有 两 个 面 ， 它 可 以 将 正 类 样 例 和 负 类 样 例 分 割 开 ， 对 于 两 类 问题 ， 这 
样 就 可 以 了 ; 当面 临 多 类 问题 时 ， 超 平面 这 样 的 工具 看 起 来 就 不 能 再 发 挥 作用 了 。 
或 者 ， 它 也 能 ? 

二 值 分 类 器 组 。 超 过 单个 人 能 力 的 问题 可 以 由 
一 个 团队 来 解决 。 图 4. 4 展示 了 在 这 种 情境 下 一 种 


常用 的 方法 。 这 个 团队 包含 4 个 二 值 分 类 器 ， 每 个 全 dy D 2 























针对 于 4 类 中 的 一 类 ， 即 C, ~ C,。 理 想 地 ， 一 个 C， 

类 的 样 例 经 过 训练 后 ， 第 i 个 分 类 器 返回 h(x) = 1， yo 

而 其 他 分 类 器 返回 h(x) =0， 再 一 次 强调 ， 前 提 是 

每 个 类 别 可 以 从 其 他 类 别 线性 地 分 割 开 。 图 4.4 将 一 个 四 类 的 问题 转 
修改 训练 数据 。 然 而 ， 要 获得 这 种 值得 称赞 的 化 为 四 个 2 类 的 问题 。 





效果 ， 每 一 个 分 类 器 都 需要 被 适当 地 训练 。 这 里 ， 前 几 节 介绍 的 算法 在 这 里 可 以 
用 上 。 仅 需要 增加 的 “技巧 ”是 需要 相应 地 修改 训练 数据 。 

表 4.5 摘 述 了 这 个 原理 。 左 侧 是 原始 的 训练 集 7， 这 里 每 一 个 样 例 被 标注 为 4 
类 中 的 一 类 。 右 侧 是 4 个 导出 的 集合 ， 即 7, ~ 7, ， 每 一 个 包含 了 同样 的 6 个 样 例 ， 
但 是 它们 被 重新 进行 了 标记 ， 原 始 训练 集 了 中 代表 C; 类 的 一 个 样 例 在 7, 中 被 标记 
K elx) =1， 在 其 他 集合 中 被 标记 为 (x) =0。 
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表 4.5 一 个 4 类 的 训练 集 了 被 转化 为 4 个 二 值 的 训练 集 (T, ~T) 











T T, ip T, T, 

el | C, el 0 e€ 1 € 0 € 0 
ez | C ez | 1 & | 0 & | 0 ez | 0 
63 | C e | 0 e| 0 e | 1 e3 | 0 
e, | Cy el | 0 e, | 0 e, | 0 e| 1 
es | C, e | 0 e | 1 e | 0 e | 0 
e6 | Cy e6 | 0 e6 | 0 e | 0 e | 1 


















































需要 一 个 主 分 类 器 。 训 练 集 7; 会 被 呈现 给 一 个 学 习 需 ， 这 个 学 习 融 会 从 中 归 
纳 学 习 出 一 个 专门 针对 相应 类 别 的 线性 分 类 器 。 但 是 这 并 不 是 故事 的 结尾 。 训 练 
集 可 能 会 很 差 地 代表 相应 的 类 别 ， 它 们 可 能 被 噪声 污染 ， 甚 至 可 能 不 能 满足 线性 
可 分 性 的 要 求 。 作 为 这 些 复杂 性 的 结果 ， 归 纳 学 习 到 的 分 类 器 可 能 是 相互 “ 重 从 
的 ”"， 因 为 它们 中 的 两 个 或 多 个 对 同一 个 样 例 x 都 会 返回 h,(x) =1， 从 而 让 人 误 认 
为 x 属于 多 于 一 个 类 。 这 就 是 为 什么 一 个 “ 主 分 类 器 ”是 必需 的 ， 它 的 任务 就 是 
从 返回 的 类 别 中 选择 出 最 可 能 正确 的 那 一 个 。 

这 并 不 困难 。 读 者 可 能 会 记 起 ， 一 个 线性 分 类 需 会 标记 x* WER, WE x 的 

















属性 值 的 加 权 和 超过 0， 即 D wx, >0， 则 这 个 和 (对 于 返回 h(x) =1 的 每 一 个 
分 类 器 经 常 是 不 同 的 ) 可 以 理解 为 支持 相应 类 别 的 证 据 的 量 。 那 么 主 分 类 器 可 以 








简单 地 倾向 于 给 出 的 最 高 的 六 wa, 值 的 二 值 分 类 器 所 返回 的 类 别 。 表 4.6 图 示 


了 这 个 原理 ， 这 里 两 个 分 类 器 C, 和 C;， 都 返回 了 h(x) =1。 从 这 两 个 当中 ， 主 分 
类 器 选择 了 C, ， 因 为 它 的 加 权 和 大 于 C 的 加 权 和 。 


表 4.6 图 示 主 分 类 器 的 应 用 : 从 多 个 候选 中 选取 样 例 的 类 别 


假设 有 4 个 如 下 表 所 列 的 权重 定义 的 二 值 分 类 器 (第 i 个 分 类 器 用 于 第 i 个 类 别 )。 主 
分 类 器 应 该 怎样 标记 样 例 x= (xi, X2, X3, x4) =(1, 1, 1, 0)? 








tt 




















类 别 oe 5 w:x; h(x) 
Wo w, w, w, w, ED 
C, -0.5 2 0.5 -1 -5 1 0 
C, 0.5 1.5 -1 3 1 4 1 
C, 1 -2 4 -1 0.5 2 1 
C, -2 1 1 -3 -1 -3 0 





























最 右 一 列 说 明 两 个 分 类 器 ，C， 和 C;， 都 返回 了 h(x) = 1。 在 它们 两 个 当中 ，C, 的 
Y wx 值 更 大 。 因 此 ， 主 分 类 器 标注 * 为 C,。 
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一 个 现实 的 约束 。 这 里 要 写 一 个 小 小 的 免责 声明 。 这 个 在 多 类 域 使 用 线性 分 
类 需 的 方法 仅 在 类 别 数 是 适当 的 情况 下 是 可 靠 的 ， 如 3 ~5 类 。 在 有 许多 类 的 域 ， 
导出 的 训练 集 是 不 平衡 的 ， 因 为 多 数 的 样 例 都 是 c(x) =0 的 ， 只 有 少数 是 c(x%) 
=1 的 。 正 如 10.2 节 我 们 将 会 学 到 的 ， 除 非 采 取 恰 当 的 措施 ， 和 否则 不 平衡 的 训练 
集 在 有 噪声 的 域 很 可 能 会 造成 学 习 的 困难 。 

















Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 在 一 个 NN 类 的 域 中 使 用 NN 个 线性 分 类 器 的 时 候 ， 为 了 归纳 学 习 每 个 二 值 分 
类 器 ， 应 该 如 何 构建 训练 集 卫 ? 
。 在 两 个 或 多 个 二 值 分 类 器 都 返回 h(x) =1 的 情况 下 ， 一 个 样 例 的 类 别 该 如 
何 确定 ? 














4.5 多 项 式 分 类 器 








现在 是 时 候 放弃 正 类 样 例 和 负 类 样 例 线性 可 分 的 要 求 了 ， 因 为 在 大 多 数 情况 
下 它们 并 不 是 线性 可 分 的 。 不 仅仅 是 因为 线性 
可 分 性 会 被 噪声 所 破坏 。 一 个 类 别 所 占据 的 区 
域 的 形状 就 会 使 得 用 线性 的 决策 平面 将 它 分 割 
开 是 不 可 能 的 。 因 此 ， 在 图 4.5 所 示 的 训练 集 
中 ,没有 线性 分 类 器 可 以 成 功 地 将 两 类 分 割 
开 。 这 是 一 个 只 有 非 线性 曲线 才能 达到 的 结 
果 ， 如 图 中 所 示 的 抛物 线 。 

现在 ， 我 们 要 问 怎样 归纳 学 习 出 更 加 复杂 BAS gel elena 
的 非 线性 分 类 器 ? 毫 无 疑问 ,它们 是 存在 的 。 割 开 ， 只 有 非 线 性 分 类 器 可 
例如 ， 数 学 家 告诉 我 们 ， 任 何 n 维 函 数 都 可 以 以 做 到 
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被 足够 高 阶 的 多 项 式 以 任意 精度 来 通 近 。 因 此 ， 让 我 们 看 一 下 为 了 达到 分 类 的 目 
的 应 该 如 何 使 用 以 及 推导 这 些 多 项 式 。 

二 阶 多 项 式 。 好 的 消息 是 ， 多 项 式 的 系数 可 以 使 用 线性 分 类 器 中 所 用 过 的 同 
样 的 技术 进行 推导 。 现 在 ， 我 们 解释 一 下 。 

为 了 清楚 起 见 ， 我 们 从 只 包含 两 个 布尔 属性 (x, 和 x,) 的 一 个 简单 域 开始 。 
那么 ， 二 阶 多 项 式 函 数 可 以 定义 如 下 : 

Wy + WX HWX, 十 W03X1 +W% X, + wx, =0 (4. 12) 

表达 式 的 左边 是 几 项 的 和 ， 它 们 有 一 个 共同 点 : 一 个 权重 w 乘 以 一 个 乘积 
xtx;。 在 第 一 项 中 ,我 们 及 +1=0， 因 为 wale =w; 下 面 的 是 +1=1 的 项 ， 
具体 来 说 是 wixix? =w,x, Pwa a, =w; 然后 以 3 个 +1=2 的 项 结束 ， 分 别 为 
wxi, wxx, 和 wsx2。 和 需要 记 住 的 是 ， 二 阶 多 项 式 展开 当 指 数 的 和 达到 2 时 结束 。 

当然 ,一 些 系 数 可 以 是 w, =0， 使 得 一 些 项 “不 可 见 ”， 如 7 +2xixs +3x2 中 ， 
x x 和 wt? 的 系数 是 0。 

r 阶 多 项 式 。 更 加 常见 的 是 + 阶 多 项 式 (还 是 在 二 维 的 域 中 ) ， 由 多 个 加 权 项 
wax, 的 和 构成 ， MA k+l=j, j=l, =, ro 

读者 很 容易 再 往 下 走 一 步 ， 并 写 出 在 有 多 于 两 个 属性 的 域 中 定义 7 阶 多 项 式 
的 一 般 公 式 。 提 示 ， 在 任何 单项 式 中 指数 之 和 不 能 超过 7。 

转化 为 线性 分 类 器 。 无 论 多 项 式 是 多 少 阶 的 ， 无 论 属 性 的 个 数 是 多 少 ， 机 央 
学 习 的 任务 就 是 找到 权重 ， 能 够 使 得 正 类 和 负 类 样 例 分 开 。 各 项 都 是 非 线性 的 
(指数 的 和 有 时 会 超过 1) 这 个 看 起 来 不 利 的 条 件 ， 可 以 通过 乘 子 很 容易 地 消除 ， 
它 是 一 种 返回 和 输入 的 逻辑 连接 的 策略 : 如果 所 有 输入 都 是 1， 则 值 为 1; 如果 至 少 
一 个 输入 为 0， 则 值 为 0。 借 助 于 它 的 帮助 ， 我 们 可 以 将 每 一 个 属性 的 乘积 蔡 换 为 
一 个 新 的 属性 z;,， 因 此 , 式 (4.12) 可 以 重 写 为 如 下 形式 : 

Wy +W, 2, +W, 2, 十 203 2, + Waza + wszs =O (4. 13) 

例如 ， 这 意味 着 ，z, =x? 和 z =xixz。 注 意 ， 这 个 技巧 已 经 将 原来 的 有 两 个 属 
性 (x, 和 zx,) 的 非 线性 问题 转化 为 一 个 关于 5 个 新 创建 属性 一 一 > ~ z; 的 线性 问 
题 了 。 


图 4. 6 展示 了 一 个 二 阶 多 项 式 在 一 个 有 3 个 属性 的 域 中 的 使 用 情况 。 
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因为 每 个 样 例 的 z 值 都 是 已 知 的 ， 所 有 权重 可 以 通过 感知 机 或 WINNOW 没有 
任何 困难 地 获得 。 当 然 ， 我们 一 定 不 能 忘记 ， 只 有 所 选 阶 数 的 多 项 式 是 能 够 将 两 
类 分 割 开 的 ， 我 们 才能 用 这 些 技术 找到 解 。 























关于 3 个 属性 的 二 阶 多 项 式 函 数 由 如 下 函数 定义 : 


2 2 2 
0 =w + WX, + WXy 十 203X3 十 204X1 十 205X1X2 十 206X1X3 十 207X2 十 208X2X3 十 209X3 








使 用 乘 子 ， 我 们 可 得 : 

0 =wo +W, Z, + Wy Z, 十 203 Z3 十 20424 + Wszs 十 20626 + W727 十 20828 + Wozo 

图 是 带 有 乘 子 的 整个 “设备 ”的 图 示 。 在 得 到 线性 分 类 器 之 前 ， 每 一 个 信号 z 要 乘 
以 相应 的 权重 wi。 





























图 4.6 借助 于 预 处 理 数据 的 乘 子 ， 一 个 多 项 式 分 类 器 可 以 转化 为 一 个 线性 分 类 器 


P : 
L 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

e 我 们 什么 时 候 需 要 非 线 性 分 类 器 ? 特别 地 ， 在 什么 情况 下 会 用 多 项 式 分 
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写 出 定义 一 个 多 项 式 分 类 器 的 数学 表达 式 。 这 里 ， 什 么 “技巧 ”使 得 我 们 
可 以 使 用 线性 分 类 器 用 到 的 相同 的 学 习 技术 ? 


4.6 多 项 式 分 类 如 的 特殊 方面 


为 了 能 够 成 功 地 应 用 一 个 机 器 学 习 技术 ， 工 程 师 不 仅 要 理解 它 的 长 处 ， 还 要 
知道 它 的 局 限 、 不 足 和 缺陷 。 对 于 多 项 式 ， 这 里 有 几 点 值得 注意 。 证 我 们 简单 地 
讨论 一 下 

过 拟 合 。 多 项 式 分 类 噩 倾向 于 过 拟 合 帝 有 噪声 的 训练 数据 。 因 为 过 拟 合 的 问 
题 在 其 他 机 器 学 习 范 式 里 也 会 遇 到 ， 所 以 我 们 需要 详细 地 讨论 一 下 它 的 本 质 。 为 
了 清晰 起 见 ， 我 们 放弃 所 有 属性 都 是 布尔 型 的 要 求 ; 取而代之 ， 我 们 使 用 二 维 连 
续 域 ， 它 很 容易 可 视 化 。 
图 4.7 中 的 8 个 训练 样 例 分 属于 两 类 。 在 其 中 的 一 类 ， 所 有 样 例 都 是 正 例 ; 
在 另 一 类 中 ， 所 有 样 例 都 是 负 例 。 为 了 将 两 类 分 开 ， 进 行 了 两 种 尝试 。 左 侧 的 是 
一 个 线性 分 类 器 ， 忽 略 了 有 一 个 训练 样 例 被 错 分 的 小 甫 犹 ; 右 侧 的 采用 了 多 项 式 
分 类 需 ， 试 图 避免 在 训练 集 上 犯 任何 错误 。 
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图 4.7 两 类 是 线性 可 分 的 ， 但 是 噪声 导致 了 一 个 负 类 样 例 被 错 分 为 正 类 ; 右 侧 的 
高 阶 多 项 式 分 类 器 过 拟 合 了 数据 ， 忽 视 了 噪声 存在 的 可 能 性 





一 个 不 可 避免 的 权衡 。 两 者 哪个 更 好 呢 ? 这 不 是 一 个 简单 的 问题 。 一 方面 ， 
两 类 可 能 是 线性 可 分 的 ， 一 个 正 类 样 例 存 在 于 负 类 的 区 域 ， 仅 可 能 是 由 类 标的 噪 
声 所 引起 的 。 如 果 这 是 事实 ， 则 线性 分 类 顺 在 训练 集 上 所 犯 的 一 个 错误 是 不 重要 
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的 ， 然 而 多 项 式 分 类 需 很 深 地 切入 了 负 类 的 区 域 ， 会 导致 有 些 样本 被 错 分 。 另 一 
方面 ， 也 存在 可 能 ， 那 个 异常 值 确实 是 正 类 的 合法 值 ， 虽 然 这 种 情况 很 少 。 这 种 
情况 下 ， 使 用 多 项 式 就 是 合理 的 。 不 过 ， 整 体 来 说 ， 单 个 的 异常 值 是 噪声 的 假设 
比 是 特殊 的 正确 值 的 想法 更 有 可 能 是 正确 的 。 

一 个 实际 的 训练 集会 包括 不 止 一 个 ， 可 能 是 几 个 甚至 许多 样 例 看 上 去 都 位 于 
样本 空间 中 错误 的 地 方 。 分 类 需 试 图 去 建 模 的 类 间 边 界 可 能 实际 上 是 扭曲 的 ， 尽 
管 有 多 扭曲 依赖 于 每 个 人 的 猜想 。 工 程 师 可 能 因为 线性 分 类 需 分 类 太 粗 焙 而 放弃 
它 ， 而 选择 灵活 性 更 高 的 多 项 式 。 这 就 是 说 ， 一 个 非常 高 阶 的 多 项 式 即 使 在 一 个 
有 非常 大 噪声 的 训练 集 上 都 能 避免 任何 错误 发 生 ， 但 它 也 会 在 将 来 的 数据 上 表现 
得 非常 糟糕 。 理 想 的 解决 方法 通常 是 在 线性 分 类 顺和 高 阶 多 项 式 之 间 找 到 合适 的 
V 置 。 最 好 的 选择 可 以 通过 实验 来 决定 。 

权重 的 数量 。 要 训练 的 权重 的 总 的 数量 决定 于 属性 向 量 的 长 度 和 多 项 式 的 阶 
数 。 一 个 简单 的 分 析 可 以 得 到 ， 对 于 nn 个 属性 和 7 阶 多 项 式 的 情况 ， 这 个 数量 由 
下 面 的 组 合 表 达 式 决定 : 
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N, = (=) (4. 14) 


当然 ， 对 于 数值 很 大 的 nw，N, 会 不 切实 际 地 高 。 例 如 ， 即 使 对 于 有 n=100 个 
属性 和 多 项 式 阶 数 为 r+ =3 的 相对 适度 的 情况 ,要 训练 的 权重 的 个 数 就 是 N, = 
161, 700。 对 于 现在 的 计算 机 ， 所 导致 的 计算 代价 是 难以 应 付 的 。 更 糟 的 是 ， 对 带 
噪声 的 训练 数据 的 过 拟 合 的 危险 ， 多 项 式 简 直 太 富有 灵活 性 了 。 下 一 上段 将 告诉 我 
们 到 底 有 多 灵活 。 

容量 。 图 4.1 中 的 平凡 域 包含 4 个 样 例 。 假 如 每 个 样 例 都 可 以 标记 为 正 类 或 
负 类 ， 那 么 对 这 个 训练 集 我 们 有 2”= 16 种 不 同 的 设 定 类 标的 方法 。 在 这 16 种 方 
法 中 ， 只 有 两 种 代表 了 两 类 不 能 线性 地 分 开 的 情况 一 一 在 这 个 域 中 ， 线 性 不 可 分 
性 是 稀少 的 事件 。 但 是 在 更 加 一 般 的 包含 m 个 由 nn 个 属性 描述 的 样本 中 ， 这 种 情 
况 还 有 多 典型 ? 一 个 样 例 的 随机 标记 导致 线性 可 分 类 别 的 概率 有 多 大 ? 

数学 家 找到 了 一 条 用 在 n 是 合理 的 高 的 (如 10 个 或 更 多 个 属性 ) 域 的 简单 准 
则 : 如 果 样 例 数 m 少 于 属性 数 的 两 信 Cm <2n) ， 两 个 类 标的 随机 分 布 导致 线性 可 
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分 的 概率 是 接近 100% 的 。 相 反 地 ， 当 m > 2n 时 ,概率 几乎 为 0。 从 这 个 意义 上 
说 ,“ 线 性 分 类 器 的 容量 是 属性 数 的 两 倍 ”。 

这 个 结果 对 于 多 项 式 分 类 器 同样 适用 。 这 里 ， 属 性 的 角色 由 基于 乘 子 得 到 的 
项 z; 来 扮演 。 它 们 的 个 数 w, 由 式 (4.14) 得 到 。 我 们 已 经 看 到 N, 可 以 是 非常 大 
的 ， 这 使 得 其 容量 也 很 大 。 在 n=100、r =3 的 情况 下 ， 权 重 的 个 数 是 161,700, 
这 意味 着 只 要 样 例 个 数 是 少 于 323,400 的 ， 则 3 阶 多 项 式 就 可 以 将 两 类 分 割 开 
(不 管 是 否 有 噪声 ) 。 




















Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 详细 描述 术语 “过 拟 合 ”， 解 释 为 什么 这 个 现象 (和 它 的 结果 ) 对 于 多 项 
式 分 类 器 是 很 难 避 免 的 。 
e 在 nn 个 属性 的 域 中 , r 阶 多 项 式 可 以 训练 的 权重 个 数 的 上 界 是 多 少 ? 
e 线性 或 多 项 式 分 类 器 的 容量 是 多 少 ? 关于 线性 可 分 性 容量 告诉 了 我 们 
什么 ? 




















4.7 数值 域 和 支持 向 量 机 


现在 我 们 已 经 认识 到 多 项 式 并 不 需要 新 的 机 器 学 习 算 法 ， 我 们 可 以 回归 到 线 
性 分 类 器 ， 一 个 还 没有 穷尽 的 话题 。 现 在 我 们 要 放弃 自己 强加 的 布尔 属性 的 限制 ， 
并 开始 考虑 连续 属性 的 可 能 性 了 。 我 们 还 可 以 依赖 上 边 描 述 的 两 个 训练 算法 吗 ? 

数值 域 的 感知 机 。 对 于 感知 机 的 情况 ， 答 案 很 简单 : 是 的 ， 可 以 使 用 同样 的 
权重 更 新 公式 。 然 而 ， 实 际 的 经 验 表 明 最 好 还 是 把 所 有 属性 都 映射 到 单位 区 间 ， 
即 x,e[0, 1]. 

为 了 方便 读者 ， 这 里 我 们 重复 一 下 权重 调整 的 公式 : 

w,=w, +n [e(x) -h(x)]x; (4. 15) 

学 习 率 yn 和 真实 与 假设 的 类 标的 差 值 [c(x) -h(x) | BS CHITA FAIA 
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和 影响 ， 变 化 的 仅仅 是 x; 的 角色 。 在 具有 布尔 属性 的 情况 下 ，x; 的 值 决定 了 权重 
是 否 要 变化 。 但 是 ， 在 这 里 更 应 该 说 是 权重 在 多 大 程度 上 被 影响 了 : 属性 值 越 大 ， 
影响 越 大 。 

乘法 规则 。 对 于 WINNOW， 基 本 上 可 以 用 与 二 值 属性 情况 下 相同 的 学 习 


公式 : 

















w, =w; of)“ (4.16) 

这 就 是 说 ， 当 使 用 式 (4.16) 的 时 候 还 需要 小 心 一 点 。 之 前 ， 只 需要 修 
改 属性 值 x, =1 对 应 的 权重 即 可 。 现 在 既然 属性 值 来 自 于 一 个 连续 的 域 ， 就 需 
要 有 一 些 改变 ， 一 种 可 能 性 是 如 下 的 规则 : 仅 当 第 i 个 属性 值 为 x; >0.5 时 更 
新 权重 w,。 

我 们 应 该 注意 的 是 ， 即 使 是 在 两 类 是 线性 不 可 分 的 情况 下 ， 如 存在 噪声 ， 这 
两 个 算法 (感知 机 学 习 和 WINNOW) 通常 也 可 以 找到 一 个 相对 低 错 误 率 的 解 。 

哪个 线性 分 类 器 更 好 ? 然而 ， 现 在 需 
要 讨论 一 个 重要 的 问题 。 图 4.8 展示 了 3 ” 
个 线性 分 类 器 ， 每 一 个 都 完美 地 将 正 类 和 
负 类 样 例 分 割 开 了 。 既 然 知道 在 训练 集 上 
好 的 表现 并 不 能 保证 在 将 来 也 有 高 的 性 
能 ， 那 么 我 们 不 得 不 问 : 这 3 个 中 的 哪个 
在 未 来 的 样 例 上 可 能 会 获得 最 高 分 ? 

支持 向 量 机 。 研 究 这 个 问题 的 数学 家 
发 现 了 一 个 答案 。 看 一 下 图 4.8， 我 们 可 
以 发 现 虚 线 的 分 类 器 与 两 侧 的 最 近 的 样 例 






























































图 4.8 线性 可 分 的 类 别 可 以 用 无 限 多 种 
不 同 的 方法 分 割 开 。 问 题 是 ， 哪 




















都 是 接触 的 ， 我 们 说 它 的 间隔 是 小 的 。 相 一 个 在 训练 集 上 完美 的 分 类 器 可 
反 地 ， 实 线 分 类 器 的 间隔 是 大 的 ， 最近 的 a E 








正 类 样 例 都 在 线 的 一 侧 ， 而 且 在 线 的 男 一 侧 ， 最 近 的 样 例 都 是 比 其 他 分 类 器 的 情 
况 要 远 很 多 。 事 实证 明 ， 间 隔 越 大 ,分 类 如 在 将 来 数据 上 表现 好 的 几率 也 越 大 。 

图 4.9 描述 了 支持 向 量 机 的 技术 。 实 线 是 最 好 的 分 类 带 ， 图 中 也 显示 出 两 条 
与 分 类 需 相 平行 的 细 线 ， 每 一 个 都 与 分 类 器 有 相同 的 距离 。 读 者 可 以 看 到 ， 它 们 
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经 过 了 离 分 类 带 最 近 的 样 例 ， 这 些 样 例 被 称 为 支持 向 量 ( 因为 毕 竞 每 一 个 样 例 都 
是 一 个 属性 向 量 ) 。 

















x) 


图 4.9 支持 向 量 机 技术 要 寻找 最 大 化 间隔 的 一 个 分 割 超 平面 





机 噩 学 习 的 任务 就 是 要 找到 最 大 化 间隔 的 支持 向 量 。 找 到 最 优 的 支持 向 量 的 
集合 的 具体 机 制 超出 了 一 个 介绍 性 文档 的 范围 。 一 个 最 简单 的 技术 就 是 直接 尝试 
所 有 可 能 的 n 元 样 例 ， 然 后 测量 每 一 个 这 样 的 选择 所 给 出 的 间隔 。 然 而 ， 在 有 许 
多 样 例 的 域 中 这 是 不 现实 的 。 因 此 ， 多 数 情况 下 ， 工 程 师 们 依赖 于 互联 网 上 免费 
提供 的 一 些 软件 包 。 





Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
感知 机 学 习 和 WINNOW 可 以 用 于 数值 域 吗 ? 该 怎样 用 ? 
假如 有 无 穷 多 个 线性 分 类 器 都 可 以 将 正 类 样本 与 负 类 样本 分 割 开 (假设 这 
样 的 分 割 存在 )， 它 们 中 的 哪 一 个 可 以 期 望 在 新 的 数据 上 能 给 出 最 好 的 
结果 ? 
什么 是 支持 向 量 ? 间隔 最 大 化 意味 着 什么 ? 
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4.8 


总 结 和 历史 简 评 





线性 和 多 项 式 分 类 需 都 定义 了 一 个 决策 平面 来 将 正 类 样 例 和 负 类 样 例 分 割 
开 。 特 别 地 ， 线 性 分 类 器 按照 如 下 表达 式 的 符号 来 标记 样 例 : 
Wo HWX, 十 HWA, 

具体 的 行为 由 权重 mw 来 决定 。 机 器 学 习 的 任务 就 是 要 找到 合适 的 权重 。 
这 一 章 中 的 学 习 技术 依赖 于 “从 错误 中 学 习 ” 的 准则 。 训 练 样 例 都 是 一 个 
接着 一 个 地 呈现 给 学 习 带 的 。 每 一 次 学 习 融 错 分 了 样 例 ， 就 更 新 权重 。 当 
全 部 的 训练 集 都 训练 过 了 ， 一 个 学 习 阶段 即 完成 。 通 常 都 是 需要 多 个 学 习 
阶段 的 。 
这 里 考虑 了 两 个 权重 修改 的 技术 : 加 法 规则 的 感知 机 学 习 和 乘法 规则 的 
WINNOW 。 
在 多 于 两 个 类 的 域 ， 可 以 对 每 类 使 用 一 个 特定 分 类 器 。 然 后 ， 用 一 个 “ 主 
分 类 器 ”来 选择 那个 使 得 > wix; 有 最 大 值 的 分 类 需 所 返回 的 类 别 。 
在 有 非 线性 类 别 边界 的 域 ， 有 时 候 可 以 使 用 多 项 式 分 类 器 。 一 个 二 维 域 的 
二 阶 多 项 式 由 如 下 表达 式 定义 : 

Wo + WX, WX, WX] + WX Hy + Ws XY 
如 果 非 线性 项 (A xx.) 由 (借助 于 乘 子 ) 新 创建 的 属性 ， 如 zs =x 和 
z4 =Xi%s 来 代替 ， 则 多 项 式 的 权重 可 以 通过 线性 分 类 絮 中 相同 的 学 习 算 法 
得 到 。 
多 项 式 分 类 带 趋 向 于 过 拟 合 带 噪声 的 训练 数据 ， 这 主要 是 由 大 量 的 可 训练 
的 权重 引起 的 高 灵活 性 所 导致 的 。 
潜在 的 最 好 的 类 别 分 割 超 平面 (在 无 穷 多 个 候选 当中 ) 可 以 由 支持 向 量 机 
(SVM) 技术 获得 ， 它 最 大 化 了 超 平面 与 最 近 的 正 类 和 人 负 类 样 例 之 间 的 
距离 。 






























































历史 简 评 。 感 知 机 学 习 的 准则 是 由 罗 森 布 兰 特 '%] (Rosenblatt) 提出 的 ， 而 





‘alt 


095 


I 


z 


第 
分 


4 
类 间 边 界 : 线性 和 多 项 式 分 类 














WINNOW 是 由 利 特 斯 通 (Littlestone) 提出 和 分 析 的 。 线 性 和 多 项 式 分 类 器 的 
Fe NUE BB) (Cover) 分 析出 来 的 。 作 为 第 7 章 会 涉及 的 计算 学 习 理 论 
WR, BoM eg! (Vapnik) 提出 了 支持 向 量 机 的 原理 。 





4.9 巩固 你 的 知识 

















下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 





练习 


1. 写 出 线性 分 类 器 的 等 式 来 实现 如 下 函数 : 
。 在 布尔 属性 x, ，…，xs 中 至 少 两 个 是 true。 
。 在 布尔 属性 x, ，…，xs 中 至 少 3 个 是 true, 并 且 至 少 一 个 是 false, 

2. 回 到 表 4.2 中 的 样 例 。 从 一 个 不 同 于 表格 中 所 用 的 权 值 的 初始 化 开始 ， 手 
工 模拟 感知 机 学 习 算法 的 学 习 过 程 。 也 试 一 下 男 外 一 个 学 习 率 。 

3. 使 用 WINNOW 重复 同样 的 练习 。 不 要 忘记 为 感知 机 中 负 的 权重 引入 额外 
的 “属性 ”。 

4. 写 出 在 二 维 空间 定义 一 个 三 阶 多 项 式 的 等 式 。 如 果 我 们 想 用 感知 机 学 习 算 
法 来 训练 权重 ， 则 需要 多 少 个 乘 子 (每 个 至 多 对 应 于 3 个 输入 )? 






































思考 题 














1. 怎样 使 用 线性 分 类 器 来 识别 不 相关 的 属性 ? 提示， 试 着 在 属性 的 不 同 子 集 
上 运行 学 习 算法 ， 然 后 观察 固定 的 几 轮 之 后 得 到 的 错误 率 。 

2. 解释 为 什么 应 用 于 一 对 样 例 〈 一 个 属于 正 类 ， 另 一 个 属于 负 类 ) 上 的 最 近 
邻 分 类 带 定 义 了 一 个 线性 分 类 器 。 基 于 这 个 观察 提出 一 个 机 器 学 习 算 法 来 
实现 线性 分 类 器 的 归纳 学 习 。 推 广 这 个 学 习 过 程 到 n 维 域 。 
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3. 什么 时 候 线性 分 类 需 会 比 多 项 式 分 类 需 在 独立 的 测试 样 例 上 可 能 表现 出 更 
好 的 分 类 性 能 ? 

4. 有 时 候 ， 由 于 类 别 标号 的 噪声 ， 一 个 线性 可 分 的 域 会 变 成 线性 不 可 分 。 思 
考 一 个 技术 以 移 除 这 样 的 噪声 样 例 。 提 示 ， 你 可 能 会 用 到 一 个 在 左近 邻 分 
类 需 中 已 经 遇 到 过 的 一 个 思路 。 














上 机 实验 








L 实现 感知 机 学 习 算法 并 在 以 下 训练 集 上 运行 它 ， 这 个 训练 集 包 含 由 4 个 属 
性 描述 的 6 个 样 例 (3 个 正 的 和 3 个 负 的 ) : 


























已 | 所 | 天 | 天 | 号 | 一 
Ol=e lel e ole 
te | S| | | 
ash | ho | cd | et | | :| 

gz] 

© 

N 














因为 两 类 不 是 线性 可 分 的 ， 所 以 可 以 观察 到 线性 分 类 器 不 能 达到 0 错 
误 率 。 

2. 创建 一 个 包含 20 个 样 例 ， 每 个 样 例 由 5 个 二 值 属性 描述 (x, ，…，xs) 的 
训练 集 。 至 少 有 3 个 属性 值 为 1，x, =1 的 样 例 被 标记 为 正 类 ， 其 他 样 例 被 
标记 为 负 类 。 将 这 个 训练 集 作 为 输入 ， 用 感知 机 归纳 学 习 出 一 个 线性 分 类 
器 。 用 不 同 的 学 习 率 7 做 实验 。 夯 出 一 个 函数 ， 横 轴 代 表 7 ， 纵 轴 代 表 为 
了 正确 分 类 所 有 训练 样 例 所 需要 呈现 给 分 类 器 的 样 倒数。 讨论 所 得 结果 。 

3. 使 用 与 前 一 个 作业 相同 的 域 (5 个 布尔 属性 ， 相 同 的 正 类 定义 ) 。 对 每 个 

样 例 增加 NN 个 布尔 属性 ， 这 些 增加 的 布尔 属性 的 值 由 一 个 随机 数 生 成 器 来 

给 出 。 将 w 从 1 变换 到 20。 观 察 ， 基 于 N， 为 了 得 到 0 错误 率 需要 呈现 的 

样 例 数 。 
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. 再 一 次 使 用 相同 的 域 ,但 是 通过 改变 随机 选择 的 样 例 的 属性 值 来 增加 属性 
噪声 (保持 类 标 不 变 ) 。 观 察 可 以 得 到 的 最 小 错误 率 。 

. 用 不 同 大 小 的 训练 集 来 重复 以 上 3 个 作业 ， 并 在 〈 总 是 相同 的 ) 学 习 阶 段 
没有 见 过 的 测试 样 例 集 上 评价 结果 。 

. 用 WINNOW 来 代替 感知 机 学 习 ， 重 复 以 上 4 个 实验 。 从 所 需要 的 计算 代 
价 的 角度 比较 实验 结果 。 这 些 代 价 可 以 用 在 训练 集 上 收敛 到 0 错误 率 所 需 
要 的 学 习 轮 数 来 度量 。 

. 定义 一 个 包含 3 个 从 单位 区 间 [0, 1] 取 值 的 数值 属性 的 域 。 产 生 100 个 
训练 样 例 ， 将 使 得 表达 式 1 - x, t+, +4, 为 正 的 样 例 标 记 为 正 类 。 使 用 权 
值 更 新 法 则 修改 为 如 下 版 本 的 “感知 机 学 习 算法 ”: 








1) w,=w,+7 
2) w,=w,+7 
3) w,=w,+7 


4) w,=w,+n 


























[e(x) -h(x) ]x;. 
[e(x) -h(x) ]. 
[c(x) T > wx, | Xio 
[e(x) - > WX; | o 





它们 都 能 在 训练 集 上 收敛 到 0 错误 率 吗 ? 比较 收敛 速率 。 

. 创建 一 个 训练 集 ， 每 个 样 例 由 6 个 布尔 属性 (x, ，…，xs) 来 描述 。 将 每 
个 样 例 标 注 为 如 下 定义 的 4 类 中 的 一 类 。 

1) Ci: 至 少 5 个 属性 有 x,=1。 

2) C: 3 个 或 4 个 属性 有 x,=1。 

3) G: 两 个 属性 有 x, =1。 

4) Cy: 一 个 属性 有 x*, =1。 




















使 用 感知 机 学 习 ， 每 一 个 对 应 于 4 个 类 中 的 一 个 。 





作为 一 个 变 体 ， 使 用 不 同 数目 的 不 相关 属性 ， 数 目 从 0 改变 到 20。 观 察 还 
能 否 在 训练 集 上 得 到 0 错误 率 。 记 录 在 一 个 独立 的 测试 集 上 所 观察 到 的 假 
的 正 类 和 假 的 负 类 的 数目 。 

.设计 实验 展示 出 : 如 果 增 加 类 别 数 ， 则 图 4. 4 中 并 行 连接 的 天 个 二 值 分 类 
顺 的 表现 会 下 降 。 在 有 噪声 的 情况 下 ， 这 个 观察 有 多 显著 ? 
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10. 从 UCI JE (www. ics. uci. edu/ ~ mlearn/MLRepository. html) 中 选择 布尔 域 
问题 ， 在 其 上 运行 线性 分 类 器 的 归纳 学 习 ， 比 较 结果 。 

11. 在 UCI 库 中 选择 的 域 上 做 实验 ， 观 察 学 习 率 n 对 感知 机 学 习 算 法 收敛 速 
度 的 影响 。 

12. 比较 线性 和 多 项 式 分 类 器 的 表现 。 观 察 前 者 怎样 在 简单 的 域 取胜 、 后 者 

怎样 在 高 度 非 线性 的 域 取胜 。 
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多 项 式 分 类 器 可 以 对 任何 形状 的 决策 面 进行 建 模 ， 但 是 它们 的 实际 有 效 性 却 
是 有 限 的 ， 因 为 它们 很 容易 过 拟 合 融 噪 声 的 训练 数据 ， 而 且 有 时 包含 特别 多 的 可 
训练 参数 。 更 为 普遍 使 用 的 是 人 工 神经 网 络 ， 许 多 被 称 为 神经 元 的 简单 单元 通过 
加 权 连 接 相 互 结 成 拥有 非常 高 性 能 的 更 大 的 结构 。 

神经 网 络 领域 太 丰 富 了 ， 由 于 篇 幅 限 制 很 难 全 面 履 盖 。 因 此 ， 我 们 仅 提 供 两 
种 常用 类 型 的 基本 信息 : 多 层 感 知 机 和 径 向 基 函 数 网 络 。 本 章 将 描述 它们 如 何 分 
类 样 例 和 从 训练 数据 中 归纳 学 习 它们 的 一 些 基本 机 制 。 























5.1 作为 分 类 器 的 多 层 感知 机 

















在 这 一 章 中 ,我们 假设 所 有 属性 都 是 连续 的 。 而 且 ， 假设 它们 已 经 被 标准 化 ， 
所 有 取 值 总 是 落 入 区 间 [ -1, 1] ， 这 是 实用 的 (尽管 不 是 严格 必需 的 )。 

神经 元 。 神 经 元 是 一 个 多 层 感知 机 的 基本 单元 ， 它 的 函数 非常 简单 。 到 达 输 
人 的 一 个 加 权 和 要 经 过 一 个 传递 函数 。 若 干 不 同 的 传递 函数 都 可 以 用 ， 本 章 倾 向 
于 使 用 的 一 个 是 所 谓 的 S 形 函 数 , 它 由 式 (5.1) 定义 ,这 里 是 > 输入 的 加 权 和 ; 
























































KÈ) es (5.1) 
图 5. 1 展示 了 代表 传递 函数 的 曲线 。 读 者 可 以 a(S) 
AAAS ) 随 着 》 的 值 的 增加 单调 递增 ,但 是 不 17 
会 离开 开 区 间 (0,1) H- ©) = 0 而 /(%w) = re 
1, 纵 轴 与 J(0) = 0.5 相交 。 我 们 假设 所 有 神经 元 都 
有 相同 的 传递 函数 。 Fx 








多 层 感知 机 。 图 5.2 中 的 神经 网 络 就 是 著名 的 
多 层 感知 机 。 由 椭圆 表示 的 神经 元 排列 在 输出 层 和 。 图 $ 1 一 个 常用 的 传递 函数 
隐 含 层 〈 当 我 们 从 上 面 来 看 这 个 网 络 时 ， 隐 合 层 是 ee 

被 答 出 层 遮挡 了 的 ) 。 简 单 起 见 ， 我 们 仅 考虑 有 一 个 隐 含 层 的 网 络 ， 需 要 记 住 的 是 
使 用 两 层 甚至 三 层 的 情况 也 很 普遍 ， 但 是 很 少 有 使 用 更 多 层 的 。 
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输出 信号 


输出 神经 元 





5.2 一 个 包含 两 个 相互 连接 层 的 神经 网 络 示 例 























在 同 层 的 神经 元 之 间 是 没有 连接 的 ， 相 邻 两 层 之 间 是 全 连接 的 。 重 要 的 是 ， 
每 一 个 神经 元 与 神经 元 之 间 的 连接 都 与 一 个 权重 相关 联 。 从 第 j 个 隐 层 神经 元 到 
第 i 个 输出 层 神 经 元 之 间 的 连接 的 权重 记 为 w,”， 从 第 个 属性 到 第 j 个 隐 层 神经 
元 之 间 的 连接 的 权重 记 为 wy 。 注 意 ， 第 一 个 指标 总 是 指 连接 的 “开始 ”"”， 第 二 个 
是 它 的 “结束 ”。 

前 向 传播 。 我 们 通过 一 个 样 例 x = (x, ，…，x,) 来 展示 神经 网 络 ， 这 个 样 例 
的 属性 值 要 沿 着 网 络 中 的 连接 传 到 各 个 神经 元 。 值 x, 乘 以 与 连接 相关 联 的 权重 ， 
第 j 个 隐 层 神经 元 接受 加 权 和 > ,wy x, 作为 输入 ， 然 后 传输 这 个 和 式 到 TE PRB 




























































































SCX wh? xy), 第 i 个 输出 层 神经 元 接受 由 隐 层 而 来 的 加 权 和 式 ， 并 再 一 次 地 将 
它 传 输 给 传递 函数 。 这 就 是 第 i 个 输出 是 怎样 得 到 的 。 属 性 值 从 网 络 的 输入 到 输 
出 这 样 的 传播 过 程 被 称 为 前 向 传播 。 

每 个 类 别 都 被 分 配 了 它 自 己 的 输出 神经 元 ,第 i 个 输出 神经 元 所 返回 的 值 代 
表 了 支持 第 ; 类 的 证 据 的 量 。 例 如 ， 如 果 3 个 输出 神经 元 得 到 的 值 为 y = (0. 2， 
0.6, 0.1) ， 则 分 类 器 会 将 给 定 的 样 例 标记 为 第 二 类 ， 因 为 0.6 大 于 0.2 和 0.1。 

本 质 上 ， 这 种 两 层 的 感知 机 计算 了 式 (5.2) ， 这 里 了 是 神经 元 中 所 使 用 的 S 
形 传递 函数 (参加 式 (5.1)), wi 和 wi 分 别 是 指向 隐 层 和 输出 层 的 连接 ，x, 是 
给 定 样 例 的 属性 值 : 
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nS wI E wiz)) (5.2) 
一 个 数值 例子 。 表 5.1 中 的 数值 例子 描述 了 前 向 传播 的 原理 。 一 开始 ， 属 性 
向 量 * 出 现 。 在 达到 隐 含 层 神经 元 之 前 ， 属 性 值 要 乘 以 相应 的 权重 ， 并 且 加 权 和 
要 传 给 S 形 函 数 。 然 后 ,结果 (h, =0. 32 Mh, =0.54) 乘 以 下 一 层 的 权重 ， 并 传 
给 输出 神经 元 ， 这 里 它们 再 次 被 传输 给 S 形 函 数 。 这 就 是 两 个 输出 值 y, =0. 66 和 
y =0.45 是 怎么 得 到 的 了 。 支 持 “ 左 侧 ” 输 出 神经 元 的 类 别 的 证 据 要 高 于 支持 
“ 右 侧 ” 输 出 神经 元 的 类 别 的 证 据 。 因 此 ， 分 类 器 选择 左边 神经 元 的 类 别 。 
通用 分 类 器 。 数 学 家 曾 证 明 ， 选 择 正确 的 权重 和 隐 层 神经 元 个 数 ,， 式 (5.2) 
可 以 以 任意 精度 近似 任何 实际 的 函数 。 这 个 所 谓 的 通用 性 理论 的 结果 就 是 ， 原 则 
上 ， 多 层 感 知 机 可 以 用 来 解决 任何 分 类 问题 。 尽 管 如 此 ， 这 个 理论 并 没有 告诉 我 
们 ， 需 要 多 少 隐 层 神经 元 以 及 各 个 权 值 应 该 是 多 少 。 用 另 一 句 话说 就 是 ， 我 们 知 
道 结果 存在 ， 但 是 对 找到 它 却 没有 任何 保证 。 































































































表 5.1 多 层 感 知 机 中 前 向 传播 的 例子 
任务 : 通过 以 下 网 络 前 向 传播 x = (x, x) =(0.8, 0.1), 


y,=0.66 个 A y,=0.45 











隐 层 神经 元 的 输入 : 
z® =0.8 x (-1.0) +0.1x0.5 = -0.75 
zy” =0.8 x0.1+0.1x0.7 =0. 15 
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( 续 ) 
隐 层 神经 元 的 输出 ， 


2 1 
后 所 所 二 = 32 


1 
h, =f(2) Ziga n A 
输出 层 神经 元 的 输入 : 
z0) =0.54 x0.9 +0.32 x0.5 =0.65 
zs) =0.54 x ( -0.3) +0.32x( -0.1) = -0.19 
输出 层 神经 元 的 输出 : 

1 

Yı ZK) =i +e =0. 66 


1 
y=f(z3" ) =i 0 =o 45 





P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

o 解释 由 一 个 连续 值 属 性 向 量 描 述 的 样本 是 怎样 通过 多 层 感知 机 前 向 传播 
的 。 网 络 的 输出 如 何 解释 ? 
e 什么 是 传说 函数 ? 写 出 定义 S 形 传 递 函 数 的 公式 并 描述 它 的 形状 。 
e 什么 是 通用 性 理论 ? 它 告诉 了 我 们 什么 ， 没 告诉 我 们 什么 ? 














5.2 ”神经 网 络 的 误差 


我 们 在 后 续 章节 再 介绍 训练 多 层 感知 机 的 技术 (找到 它 的 权重 ) 。 在 解决 这 个 问题 
之 前 ， 有 必要 通过 仔细 看 一 下 分 类 的 方法 和 评价 分 类 准确 率 的 方式 来 做 些 准备 工作 。 

错误 率 。 假 如 一 个 训练 样 例 x 和 它 的 已 知 的 类 别 c(x) 被 呈现 给 了 一 个 已 有 的 
多 层 感知 机 。 前 向 传播 过 程 会 给 出 一 个 类 标 h(x)。 如 果 有 (x) 对 c(x)， 就 造成 了 一 
个 错误 。 这 也 可 能 发 生 在 其 他 样 例 上 ， 我 们 想 要 知道 的 是 这 会 以 怎样 的 频率 发 生 。 
我 们 想 知道 错误 率 一 一 对 于 一 个 给 定 的 样 例 集 ， 它 是 由 错误 数 除 以 样 例 数 得 到 的 。 
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例如 ， 如 果 分 类 器 将 200 个 样 例 中 的 30 个 错误 分 类 了 ， 那 么 错误 率 就 是 io0 =0. 15. 


然而 ， 这 并 没有 给 出 网 络 分 类 器 表现 的 整 幅 图 片 。 错 误 率 没有 反映 出 来 的 就 
是 S 形 函数 度量 错误 大 小 的 能 力 。 

举 一 个 例子 来 溢 清 这 一 点 。 假 设 我 们 有 两 个 不 同 的 网 络 可 以 选择 ,它们 每 一 
个 都 有 对 应 于 标记 为 Ci, C, AC, 的 类 别 的 3 个 输出 神经 元 。 对 于 一 个 样 例 x*， 我 
们 假设 第 一 个 网 络 的 输出 是 y,(x) = (0.5, 0.2, 0.9), 第 二 个 的 输出 是 y, (x) = 
(0.6, 0.6, 0.7)。 这 意味 着 两 个 网 络 都 会 将 x 标记 为 第 三 个 类 别 ,， h(x) =h, 
(x) =C;。 如 果 正 确 的 答案 是 c(x) = C, ， 那 么 两 个 网 络 都 犯错 误 了 ， 但 是 看 起 来 
错误 却 不 是 相同 的 。 读 者 会 注意 到 ， 第 一 个 网 络 关于 类 别 是 C 是 “非常 确定 ”的 
(因为 0.9 是 明显 大 于 另外 两 个 输出 的 ， 即 0.5 和 0.2), 但 是 第 二 个 网 络 不 是 这 么 
Wie, I (0.6, 0.6, 0.7) 的 差别 是 如 此 之 小 ， 以 至 于 怀疑 C, REME 
取胜 的 。 因 为 对 不 正确 类 别 较 弱 的 保证 ， 所 以 第 二 个 网 络 比 第 一 个 犯 的 错 更 小 
一 些 。 

一 个 更 加 合适 的 误差 函数 一 一 均 方 误差 ( MSE) ， 可 以 捕获 到 这 种 情况 。 

目标 向 量 。 但 是 ， 在 给 出 均 方 误差 的 定义 之 前 ， 我 们 必须 先 介绍 另 一 个 重要 
的 概念 ， 即 目标 向 量 ， 它 也 依赖 于 有 具体 的 样 例 x。 我 们 用 t(x) 来 标记 它 。 在 一 个 
m 类 的 域 ， 目 标 向 量 tx) = (a(x), 0, th(xX)) 包含 mn 个 二 值 数字 。 如 有 果 一 个 
样 例 属于 第 i 类， 那么 i,(x) =1， 这 个 向 量 的 其 他 元 素 均 为 (x) =0 (这 里 ji)。 
例如 ， 假 设 存在 3 个 不 同 的 类 ，C, ，C, 和 C;, 已 知 x 属于 C, 类 。 理想 情况 下 ， 
第 二 个 神经 元 应 该 输出 1， 而 其 他 两 个 神经 元 应 该 输出 0 (更 加 准确 地 ， 因 为 S 形 
函数 取 值 于 开 区 间 (0，1) ， 所 以 输出 会 靠近 1 和 0)。 因 此 ,目标 为 t(x) = (t, 
t, ts)=(0, 1, 0)。 

均 方 误差 。 均 方 误差 由 输出 向 量 与 目标 向 量 元 素 之 间 的 差 值 来 定义 : 






























































运气 









































MSE= 工 六 (0-y) (5.3) 

当 计算 网 络 的 MSE 时 ， 我 们 需要 为 每 个 输出 神经 元 计算 它 的 输出 与 目标 向 量 

对 应 元 素 的 差 值 。 注 意 ， 为 了 确保 负 的 差 值 不 会 被 从 正 的 差 值 里 减 去 ， 括 号 中 的 
项 (t,-y,) 是 求 平方 的 。 
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回 到 以 上 提 到 的 两 个 神经 网 络 的 例子 ， 如 果 目 标 向 量 是 1(x) = (0, 1, 0), 
则 均 方 误差 如 下 : 





MSE, =[ (0 -0.5)? + (1 -0. 2)? + (0 -0. 9)?] =0.57 


MSE, ==[ (0 -0. 6)? + (1 -0.6)? + (0 -0. 7)?] =0. 34 


正如 所 期 望 的 ，MSE, < MSE, ， 这 与 我 们 的 直觉 ， 第 二 个 网 络 在 x 上 比 第 一 个 
网 络 错 得 更 少 一 些 ， 是 一 致 的 。 








会 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 为 什么 我 们 会 说 传统 的 错误 率 关 于 一 个 神经 网 络 的 分 类 准确 率 不 能 提供 足 
够 的 信息 ? 
解释 神经 网 络 的 输出 ， 样 例 的 类 别 和 目标 向 量 的 不 同 之 处 。 
写 出 定义 错误 率 和 均 方 误差 的 公式 。 














5.3 误差 的 反 回 传播 


在 多 层 感 知 机 中 ， 影 响 网 络 表现 的 参数 是 权重 的 集合 ，w 和 2) 。 机 器 学 习 
的 任务 就 是 要 为 这 些 权重 找 到 能 够 优化 网 络 分 类 性 能 的 值 。 正 如 线性 分 类 器 的 情 
况 ， 这 可 以 通过 训练 实现 。 这 节 主 要 介绍 一 种 常用 的 可 以 完成 这 个 任务 的 技术 。 

一 般 的 情形 。 原 则 上 ， 学 习 的 过 程 与 前 面 章节 介绍 的 是 一 样 的 。 一 开始 ， 权 
重 被 初始 化 为 小 的 随机 数 ， 典 型 地 ， 取 值 于 区 间 ( -0.1，0.1) 。 这 步 之 后 ， 训 练 
样 例 一 个 接着 一 个 出 现 ， 每 一 个 都 前 向 传播 到 网 络 的 输出 层 。 这 个 输出 与 样 例 的 
目标 向 量 之 间 的 差异 告诉 我 们 怎样 修改 权重 。 权 重修 改 之 后 ， 下 一 个 样 例 出 现 。 
当 到 达 最 后 一 个 训练 样 例 时 ， 一 轮 学 习 完 成 。 在 多 层 感知 机 中 ， 成 功 训练 需要 的 
学 习 轮 数 是 远 远大 于 线性 分 类 器 的 情况 的 ; 它 可 以 是 几 千 几 万 甚至 更 多 。 
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梯度 下 降 。 在 进入 权重 调整 的 具体 公式 的 讲解 之 前 ,我们 需要 对 问题 的 本 质 
有 个 更 好 的 理解 。 图 5. 3 会 帮助 我 们 。 纵 轴 代 表 了 均 方 误差 ， 它 表示 为 〈 沿 着 横 
轴 画 的 ) 网 络 权 重 的 一 个 函数 。 为 了 图 解 的 方便 ， 我 们 假设 只 有 两 个 权重 。 当 然 ， 
退 一 步 说 ， 这 是 不 现实 的 。 但 是 如 果 我 们 想 要 的 就 是 一 个 有 启发 性 的 例子 ， 我们 
不 能 简单 地 提供 更 多 维 的 情况 一 一 我 们 几乎 不 能 看 的 十 维 的 样子 ， 对 吧 ? 这 里 ， 
我 们 需要 知道 的 信息 是 ， 误 差 函 数 可 以 被 想象 成 一 种 “风景 画 ”， 它 的 “山谷 ” 
代表 了 区 数 的 局 部 最 小 值 。 其 中 最 深 的 是 全 局 最 小 值 ， 在 理想 情况 下 ， 这 也 是 训 
练 过 程 想 要 达到 地 方 ， 更 特别 地 ， 应 该 找到 的 是 对 应 于 全 局 最 小 值 的 那 组 权重 。 


均 方 误差 

















一 25 





2nd 权重 0 0 Ist 权重 


图 5.3 ”对 于 一 个 给 定 的 样 例 ， 每 一 个 权重 的 组 合 都 暗示 了 一 定 的 均 方 误差 ， 训 练 
过 程 应 该 尽快 地 降低 这 个 误差 
图 5.3 告诉 我 们 任何 一 对 权重 为 每 个 给 定 的 训练 样 例 都 定义 了 在 风景 画 中 的 
一 个 位 置 ， 特 别 是 在 某 个 斜面 上 的 。 任 何 的 权重 改变 都 会 产生 沿 着 水 平 的 两 个 坐 
标 轴 的 不 同 坐 标 ， 也 对 应 于 误差 函数 曲面 上 的 不 同位 置 。 这 个 新 的 位 置 到 底 在 哪 
里 ， 是 在 斜面 的 上 部 还 是 下 部 ， 依 赖 于 每 个 权重 变化 的 多 少 和 方向 。 例 如 ， 同 时 





第 5 章 
人 工 神 经 网 络 


给 w 和 w, 增加 0. 1 对 于 均 方 误差 仅 会 有 微小 的 降低 ， 但 是 给 w 增加 0. 3 给 ww He 
加 0. 1 会 降低 很 多 。 

在 这 里 讨论 的 技术 中 ， 我 们 希望 权重 改变 是 沿 着 误差 函数 最 陡 方 向 下 降 的 。 
回忆 第 1 章 中 的 术语 ， 这 是 爬山 搜索 要 做 的 事情 。 为 此 ， 用 在 多 层 感 知 机 中 的 最 
著名 的 技术 就 是 误差 的 反 向 传播 。 

误差 的 反 向 传播 。 确 切 的 权 值 调整 公式 可 以 由 式 (5.2) 通过 计算 函数 的 梯 
度 推 导出 来 。 但 是 ， 这 本 书 是 写 给 实践 者 的 ， 而 不 是 数学 家 的 ， 因 此 我 们 将 跳 过 
推导 过 程 ， 转 而 集中 于 解释 学 习 过 程 的 行为 。 

首先 ， 假 设 各 个 神经 元 对 整体 的 误差 的 贡献 不 同 是 合理 的 。 它 们 中 的 一 些 比 
另外 的 一 些 “ 破 坏 游戏 ”更 加 严重 。 如 果 这 是 事实 ， 则 读者 会 同意 ， 指 向 这 些 神 
经 元 的 连接 比 那 些 指向 问题 更 小 的 神经 元 的 连接 应 该 有 更 大 的 权重 改变 。 

幸运 的 是 ， 每 个 神经 元 对 于 整体 误差 的 “责任 ”大 小 可 以 容易 地 通过 计算 得 
到 。 一般 来 说 ,公式 的 具体 选择 依赖 于 使 用 了 什么 传递 函数 。 对 于 S TB PR (2 
见 式 (5.1)) 的 情况 ， 责任 可 以 按 如 下 方式 计算 。 

输出 层 神经 元 : 8 =y,(1-y¥,) (ti 一 Yi)。 

eR, Ci, -y,) 是 第 i 个 输出 和 相应 目标 值 的 差 。 这 个 差 值 被 乘 以 y,(1 -y,)， 
而 这 项 的 最 小 值 在 当 y, =0 或 y, = 1 时 达到 (对 于 x 是 否 应 该 标记 为 第 i 类 的 一 个 
“强硬 意见 ”) ， 当 y, =0.5 时 这 项 达到 最 大 ， 这 种 情况 下 “意见 ”可 以 被 认为 是 中 
wei), TER, 8!) 的 符号 仅 决定 于 (1; -y,) ， 因 为 y,(1 -y,) 总 是 正 的 。 

隐 含 层 神经 元 : 5” =h(1-h) X 8P wo 

隐 层 神经 元 的 责任 通过 反 向 传播 前 一 步 中 得 到 的 输出 神经 元 的 责任 来 计算 ， 
这 就 是 2 ,64 wj 项 所 扮演 的 角色 。 注 意 ， 每 一 个 6; (第 i 个 输出 神经 元 的 责任 ) 
都 被 乘 以 关联 第 i 个 输出 神经 元 和 第 j 个 隐 层 神经 元 的 连接 的 权重 。 加 权 和 被 乘 以 
h(1 -h), 除了 用 h 痊 换 了 y,， 本 质 上 与 前 一 步 使 用 的 是 相同 的 项 。 

权重 更 新 。 现 在 我 们 已 经 知道 了 各 个 神经 元 的 责任 ,我 们 已 经 准备 好 更 新 指 
向 它们 的 连接 的 权重 了 。 类 似 于 感知 机 学 习 ， 使 用 如 下 加 法 规则 。 

输出 层 神经 元 : wh? =w +78 ho 


La, Ay E ith Ye 2) 2) 2) 
隐 含 层 神 经 元 : w =w +76 xo 
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因此 ， 权 重修 正 的 程度 决定 于 也 80) hn” x 。 这 里 有 两 点 需要 观察 。 第 
一 ， 神 经 元 的 责任 580 或 82 被 乘 以 学 习 率 1， 理 论 上 说 ，y 应 该 从 单位 区 间 中 选 
出 , me (0, 1), 但 是 实际 实现 的 时 候 经 常 使 用 很 小 的 值 ， 特 别 地 小 于 0.1。 第 
二 ,神经 元 的 责任 5 或 8 也 被 分 别 乘 以 he (0, 1) 和 we [0, 1]。 因 此 ， 修 
正 是 非常 小 的 ， 但 是 它 的 作用 是 相对 的 。 如 果 要 加 的 项 的 值 是 ， 如 0.02， 那 么 小 
的 权重 ， 如 wD =0.01， 会 比 大 的 权重 如 wl) =1.8 受到 更 显著 的 影响 。 





表 5.2 中 的 伪 代 码 , 

















Moe 


D-H 








了 整个 训练 过 程 。 读 者 也 可 以 从 仔细 阅读 表 5. 3 中 的 例 

















子 获 益 ， 这 个 例子 给 出 了 对 应 于 每 个 训练 样 例 权 重 是 如 何 更 新 的 所 有 必要 的 细节 。 
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任务 : 在 如 下 神经 网 络 


Row pr 


表 5.2 





有 一 个 隐 含 层 的 神经 网 络 中 的 误差 反 向 传播 


. 将 样 例 * 呈现 给 输入 层 ， 并 在 网 络 中 传播 它 
BEY = Cy, oy Ya) 是 和 输出 向 量 ，Kz) = (6 ，…， ia) 是 目标 向 量 。 
对 于 每 个 输出 神经 元 ， 计 算 它 对 网 络 误差 的 责任 5 : 6)? =y,(1 -y,) (i, -y;) © 























对 于 每 个 隐 含 层 的 凶 





经 元 ， 计 算 它 对 网 络 误差 的 责任 6” 。 完 成 这 步 的 时 候 ， 使 用 








前 一 步 得 到 的 输出 





输出 层 : wl? =w 


BAE: w? 





经 元 的 责任 80 . 8? =h, -h,) E8 w0 


使 用 如 下 公式 更 新 权重 ， 这 里 7 是 学 习 率 。 
+e” hy; hIS j 个 隐 层 神经 元 的 输出 。 
swp +76, ax; zi 是 第 k 个 属性 值 。 














.除非 一 个 终止 准则 被 满足 ， 否 则 返回 步 又 1。 


表 5.3 反 向 传播 的 图 示 








H, SEARO E ) = 二 二。 使 用 误差 反 向 传播 (Ht = 


0.1) 展示 在 样 例 [x, t(x)] =[(1，-1)，(1，0)] 出 现 之 后 ， 权 重 是 如 何 改变 的 。 


Ay = 0.65 A y, = 0.59 
(1) 
ô 
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人 工 神经 网 络 | 1 
( 续 ) 
前 向 传播 。 
上 图 展示 了 前 向 传播 之 后 的 状态 ， 离 开 隐 含 层 和 输出 层 神 经 元 的 信号 通过 如 下 计算 
h =- == =0. 12 
+e 

iia 0s 
~” l+e 

1 
Yı sip ene 0. 65 

1 
A Toa -0 59 
误差 反 向 传播 。 


目标 向 量 是 1(x) = (1，0)， 而 输出 向 量 是 y= (0.65，0.59) ， 反 向 传播 的 任务 是 要 





型 
it 








立 每 个 神经 元 对 输出 误差 的 责任 。 如 下 是 关于 输出 神经 元 的 计算 : 





5)? =y(1-y)(t -¥,) =0.65 (1-0.65)(1 -0.65) =0.0796 
53” =y,(1 =y) (t, -y2) =0.59 (1 -0.59) (0 -0.59) = -0. 1427 


使 用 这 些 值 ， 我 们 可 以 计算 因此 神经 元 的 责任 。 注 意 ， 我们 先 计算 对 于 两 个 隐 层 神经 

















$ 














元 的 每 一 个 (标记 为 4A, 和 4, ) KIMRA, ME, S w, 


A, =w +65? w =0.0796 x1 +( -0.1427) x ( -1) =0. 2223 
A, =8 ws)? +6 wh? =0.0796 x1 + ( -0. 1427) x1 = -0.0631 
6 =h, (1 -h,)A, =0.12 (1 -0.12) x0. 2223 = -0.0235 
5)? =h,(1 -h,)A, =0.5 (1 -0.5) x ( -0. 0631) =0. 0158 
一 旦 责任 都 已 知 了 ， 权 重修 改 就 是 直接 的 了 。 
e w =w +46 h, =1 +0.1 x0. 0796 x0.12=1.00096 
wy? =wSP +76? h, =1 +0. 1 x0. 0796 x0. 5 = 1. 00398 
wi) =w +7 65" h, = -14+0.1 x ( -0. 1427) x0. 12 = - 1.0017 
ws =w +76” h, = -1 +0. 1 x( -0. 1427) x0.5 =0. 9929 


























e 
N 
N 


w? =w +ô x, = -1 +0. 1 x ( -0.0235) x1 = -1.0024 
w =w +P x, =1 +0. 1 x( -0.0235) x(-1) =1. 0024 
wp =w +7 69x, =1 +0. 1 x0.0158 x1 =1. 0016 

wy =w +7 69x, =1 +0. 1 x0. 0158 x ( -1) =0. 9984 


权重 都 更 新 了 ， 网 络 就 可 以 接收 下 一 个 样 例 了 。 
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FMF ENT TA? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 为 什么 本 节 的 训练 技术 被 称 为 “误差 反 向 传播 "? 建立 “神经 元 的 责任 ” 
的 根本 原因 是 什么 ? 
。 讨论 计算 各 层 神经 元 的 责任 的 公式 的 表现 。 
。 解释 用 来 更 新 权重 的 公式 的 表现 。 说 明 这 些 公式 的 一 些 关键 的 方 本 




















[e] 





5.4 多 层 感知 机 的 特殊 方面 


因 篇 幅 所 限 ， 我 们 不 能 深入 调研 使 得 多 层 感 知 机 的 训练 更 像 艺术 而 胜 于 科学 
的 许多 特征 了 。 为 了 验证 所 有 这 些 特征 ， 可 能 会 需要 另 一 个 至 少 与 本 章 同样 长 度 
的 章节。 尽管 如 此 ， 如 果 训 练 想 要 成 功 ， 一 些 关键 方面 的 知识 是 必 不 可 少 的 。 
此 ， 我 们 对 更 加 重要 的 一 些 方面 做 个 简单 的 综述 。 

计算 代价 。 误 差 反 向 传播 的 计算 代价 很 高 。 一 个 样 例 出 现 了 ， 就 得 计算 每 一 
个 神经 元 的 责任 ， 然 后 相应 地 修改 权重 。 这 要 对 所 有 训练 样 例 重 复 进 行 ， 通 常 
要 很 多 轮 。 为 了 理解 所 有 这 些 的 真实 代价 ， 考 虑 一 个 要 分 类 由 100 个 属性 所 描述 
的 样 例 的 网 络 ， 这 是 一 个 相当 现实 的 情形 。 如 果 有 100 个 隐 层 神经 元 ， 那么 这 个 
低 一 些 的 层 中 权重 的 个 数 是 100 x 100 = 104。 这 是 每 个 训练 样本 出 现 之 后 权重 改变 
的 数量 。 注 意 ,在 这 些 计算 中 ， 如 果 类 别 数 较 少 ， 则 上 层 的 权重 可 以 忽略 。 例 如 ， 
在 一 个 有 3 类 的 域 中 ， 上 层 的 权重 数量 为 100 x3 = 300， 相 对 于 10 它 是 一 个 很 小 
的 数字 。 

假如 训练 集 包含 10’ 个 样 例 ， 而 且 训 练 需要 持续 10* 轮 。 这 时 ， 权 重 更 新 的 数 
量 是 10” x 10° x 10° =10”"。 这 看 起 来 已 经 很 多 了 ,但 是 许多 应 用 甚至 是 有 更 高 要 
求 的 。 因 此 ,许多 相当 灵巧 的 会 使 训练 更 加 高 效 的 方法 被 提 了 出 来 。 然 而 ， 这 些 
都 超出 了 我 们 这 里 所 感 兴趣 的 范围 。 

重新 考虑 目标 值 。 简 单 起 见 ， 截 至 目前 我 们 都 假设 每 一 个 目标 值 是 1 或 0， 这 
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可 能 不 是 最 好 的 选择 。 首 先 ， 一 个 神经 元 的 输出 ” 永远 不 会 达到 这 些 值 。 更 进 一 
步 地 ， 在 这 两 个 极端 的 附近 权重 的 改变 是 微小 的 ， 因 为 当 ” 接近 0 或 1 时 ， 输 出 
神经 元 的 责任 的 计算 ，65 =y,(1 一 y;) -和 )， 仅 返回 一 个 非常 接近 0 的 值 。 最 
后 ， 我 们 知道 ， 分 类 器 会 选择 返回 最 大 值 的 输出 神经 元 对 应 的 类 别 。 因 此 ， 各 个 
神经 元 的 输出 精度 并 不 重要 ， 更 重要 的 是 与 其 他 输出 的 比较 结果 。 如 果 前 向 传播 
给 出 ”= (0.9，0.1，0.2) ， 那 么 样 例 一 定 被 标记 为 第 一 类 (支持 y, =0.9 对 应 的 
类 别 ) ， 这 个 决定 不 会 被 小 的 权重 改变 所 影响 。 

考虑 到 这 些 争论 ， 更 合适 的 目标 值 推荐 如 下 : 例如 ， 如 果 样 例 属于 第 i 类 ， 
M(x) =0.8， 否 则 i,(x) =0.2。 假设 有 3 个 类 别 : Ci, C, MC, M elx) =Ci。 
这 种 情况 下 ， 目 标 向 量 将 被 定义 为 Kxz) = (0.8, 0.2, 0.2). 0.8 和 0.2 都 在 S 形 
函数 相对 较 高 敏感 性 的 区 域 ， 而 且 这 样 会 消除 上 一 段 中 引发 的 多 数 的 担心 。 

局 部 极 小 值 。 图 5. 3 描绘 了 当 多 层 感知 机 训练 采用 梯度 下 降 方法 时 的 主要 缺 
点 。 权 重 以 沿 着 最 陡 斜 面 下 降 的 方式 改变 。 但 是 一 旦 到 达 一 个 局 部 极 小 值 的 底部 ， 
就 没有 任何 地 方 可 去 了 ,这 有 点 儿 旭 炊 ， 毕 竟 ， 最终 目 标 是 要 到 达 全 局 最 小 值 。 
这 里 需要 两 个 事物 : 第 一 个 ,识别 局 部 极 小 值 的 一 个 机 制 ; 第 二 个 ， 从 落 入 局 部 
极 小 值 中 恢复 出 来 的 方法 。 

一 种 在 训练 过 程 中 实时 发 现 局 部 极 小 值 的 可 能 性 是 记录 均 方 误差 ， 在 每 轮 学 
习 之 后 将 它 在 整个 训练 集 上 求 和 。 正 常情 况 下 ， 这 个 和 从 一 轮 到 另 一 轮 逐 渐 下 降 。 
一 旦 它 看 起 来 到 达 了 一 个 高 原 ， 几 乎 观察 不 到 任何 误差 的 下 降 ， 则 学 习 过 程 就 有 
陷入 了 局 部 极 小 值 的 可 能 。 

克服 这 个 困难 的 技术 通常 依赖 于 自 适应 的 学 习 率 (参见 下 文 ) ， 以 及 增加 新 
的 隐 层 神经 元 (参见 第 5.5 节 )。 一般 来 说 ， 在 有 很 多 隐 层 神经 元 的 网 络 中 ， 这 个 
问题 并 不 严重 。 同 样 ， 如 果 所 有 的 权重 都 很 小 ， 如 取 值 于 区 间 ( -0.01, 0.01), 
则 局 部 极 小 值 趋向 于 较 浅 且 不 那么 频繁 。 

自 适应 的 学 习 率 。 当 描述 误差 反 向 传播 的 时 候 ， 我 们 假设 用 户 设 定 的 学 习 率 
n 是 一 个 常数 。 但 是 ， 这 在 实际 应 用 中 是 很 少 发 生 的 。 更 多 的 情况 是 ， 训 练 开始 
于 一 个 大 的 7， 然 后 它 逐 渐 随 着 时 间 下 降 。 这 样 做 的 动机 很 容易 猜 到 。 开 始 的 时 
候 ， 较 大 的 权重 修改 会 降低 学 习 轮 数 ， 而 且 甚至 会 帮助 学 习 器 “ 跳 过 ”一 些 局 部 







































































111 


112 


机 器 学 习 导 论 


极 小 值 。 但 是 ， 随 后 ， 这 个 大 的 7 就 可 能 导致 “越过 ”全 局 最 小 值 ， 这 也 就 是 为 
什么 它 的 值 应 该 被 减 小 了 。 如 果 我 们 将 学 习 率 表达 为 时 间 的 函数 (1)， 这 里 1 说 
明了 现在 训练 是 在 哪 一 轮 中 ， 然 后， 如 下 的 负 指 数 公式 会 逐渐 降低 学 习 率 (a 是 
负 指 数 的 斜率 ，7(0) 是 学 习 率 的 初始 值 ) : 
n(t)=n(0) e™ (5.4) 

可 能 需要 注意 的 是 ， 一些 先 进 的 权重 改变 公式 是 可 以 反映 出 “当前 趋势 ” 
的 。 例 如 ， 使 用 “惯性 ”是 非常 常见 的 : 如果 之 前 两 次 权重 改变 都 是 正 的 (或 都 
是 负 的 )， 就 有 理由 增加 权重 改变 的 步 长 ， 相 反 地 ， 如 果 一 个 正 的 改变 之 后 是 一 个 
负 的 改变 (或 相反 )， 则 为 了 避免 越过 了 ， 就 应 该 减 小 步 长 。 

过 训练 。 多 层 感 知 机 与 多 项 式 分 类 器 享有 同一 个 令 人 不 愉快 的 属性 。 从 理论 
上 说 ， 它 们 能 够 对 任何 决策 面 建 模 ， 而 这 使 得 它们 易于 过 拟 合 训练 数据 。 读 者 会 
记得 过 拟 合 典型 的 意思 是 ， 对 弟 噪 声 的 训练 样 例 完 美 地 分 类 ， 但 不 可 避免 的 是 ， 
随后 在 未 来 的 数据 上 令 人 失望 的 表现 。 

对 于 小 的 多 层 感 知 机 ， 这 个 问题 并 不 令 人 痛苦 ， 它 们 并 不 足以 灵活 到 过 拟 合 。 
但 是 随 着 隐 层 神经 元 个 数 的 增加 ， 网 络 获得 了 灵活 性 ， 过 拟 合 就 变 成 一 个 真正 要 
担心 的 事情 了 。 然 而 ， 正 如 我 们 会 在 下 音 所 学 的 ， 这 并 不 意味 着 我 们 应 该 总 是 倾 
向 于 小 的 网 络 ! 

有 一 个 简单 的 方法 可 以 发 现 训练 过 程 是 否 达到 了 “过 拟 合 ”阶段 。 如 果 训 练 
集 足 够 大 ， 则 可 以 将 10% ~20% 的 样 例 放 在 一 边 。 在 误差 反 向 传播 过 程 中 始终 不 
用 它们 ; 确切 地 说 ， 每 轮 学 习 之 后 ， 计 算 在 这 些 保留 的 样 例 上 的 均 方 误差 的 和 。 
一 开始 ， 这 个 和 会 趋 于 减少 ， 但 是 至 多 到 茶 一 个 时 刻 ; 然后 ， 它 又 开始 增长 ， 警 
示 工 程 师 训练 已 经 开始 过 拟 合 数据 了 。 













































































F 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 蕊 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 关于 误差 反 向 传播 技术 的 计算 代价 你 都 知道 些 什么 ? 

。 解释 为 什么 本 章 推荐 的 目标 向 量 的 值 要 取 自 于 |0.8，,0.2| 而 不 是 |1, 0o 
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e 讨论 局 部 极 小 值 的 问题 。 为 什么 它 会 成 为 训练 中 的 一 个 问题 ? 如 何 降低 陷 
入 一 个 局 部 极 小 值 的 危险 ? 

© 自 适应 的 学 习 率 有 什么 好 处 ? 关于 它 的 什么 公式 受到 了 推荐 ? 

© 关于 神经 网 络 的 训练 会 导致 过 拟 合 训练 数据 的 危险 你 都 知道 些 什么 ? 





5.5 结构 问题 

















到 目前 为 止 ， 有 一 个 重要 的 问题 被 忽略 了 : 要 使 用 多 少 个 隐 层 神经 元 ? 如果 
只 有 一 个 或 两 个 ， 网 络 会 缺乏 灵活 性 ; 它 不 仅 不 能 对 一 个 复杂 的 决策 面 进行 建 模 ， 
而 且 这 个 网 络 的 训练 也 很 容易 陷入 一 个 局 部 极 小 值 。 在 男 一 个 极端 ， 使 用 数 千 个 
神经 元 不 仅 会 增加 计算 的 代价 ， 因 为 要 训练 这 么 多 神经 元 ， 这 个 网 络 也 会 比 所 需 
求 的 更 加 灵活 。 所 以 ， 它 很 容易 过 拟 合 数据 。 通 常 ， 在 这 种 情况 下 ， 需 要 找到 一 
些 折 中 的 办 法 。 

表现 相对 于 规模 。 假 设 你 决定 要 运行 下 面 的 实验 。 可 获得 的 已 预先 分 类 的 样 
例 的 集合 被 分 为 两 个 部 分 ， 一 个 用 来 训练 ， 另 一 个 用 来 测试 。 训 练 应 用 于 若干 个 
神经 网 络 ， 每 个 都 有 不 同 个 数 的 隐 层 神经 元 。 训 练 这 些 网 络 直到 观察 不 到 训练 集 
上 错误 率 的 下 降 。 这 步 之 后 ， 上 度量 测试 数据 上 的 错误 率 。 

最 优 的 神经 元 个 数 。 当 画 在 一 幅 图 中 ， 结 果 一 般 看 起 来 很 像 图 5. 4 所 描绘 的 























测试 数据 上 的 错误 率 
0.4 十 
0.3 十 
0.2 + 
0.1 + 











隐 层 神经 元 个 数 

图 5.4 在 测试 样 例 上 测 得 的 错误 率 依赖 于 隐 含 层 中 神经 元 的 个 数 
情况 。 这 里 ， 横 轴 代 表 隐 层 神 经 元 的 个 数 ， 纵 轴 是 在 测试 集 上 测 得 的 错误 率 。 典 
型 地 ， 在 非常 小 的 网 络 的 情况 下 ， 错 误 率 会 比较 高 ， 因 为 这 些 网 络 缺 乏 合 适 的 灵 
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活性 ， 而 且 也 承受 着 陷入 局 部 极 小 值 的 危险 。 如 果 我 们 增加 隐 层 神经 元 的 个 数 ， 





则 这 两 个 劣势 都 可 以 减轻 。 正 如 
是 ， 太 大 的 网 络 却 易于 过 拟 合 。 
试 集 上 的 错误 率 又 开始 增长 了 ( 








图 中 所 画 ， 越 大 的 网 络 呈 现 出 越 低 的 错误 率 。 但 
这 就 是 为 什么 隐 层 结 点 数 多 于 一 个 特定 值 后 ， 测 
图 中 右 侧 的 尾巴 ) 。 








这 条 曲线 准确 的 形状 依赖 于 训练 数据 的 复杂 度 。 有 时 候 ， 当 网 络 包 含 3 ~5 个 


隐 层 神经 元 的 时 候 ， 错 误 率 就 达 
隐 层 神经 元 的 时 候 ， 才 能 达到 最 
声 的 情况 。 在 这 种 域 中 ， 过 拟 合 
向 上 增长 。 

寻找 合适 的 规模 。 上 面 描述 
来 ， 我 们 并 不 知道 我 们 是 否 需要 




















到 了 最 小 。 但 是 ,在 其 他 域 ， 仅 当 使 用 了 几 百 个 
小 值 。 还 有 的 值得 一 提 的 是 当 训练 样 例 完 全 无 噪 
不 会 成 为 一 个 问题 ， 曲 线 右 侧 的 尾巴 可 能 都 不 会 





的 情形 代价 太 高 ， 在 现实 应 用 中 不 会 用 到 。 回 过 
仅仅 几 个 、 十 几 个 还 是 上 百 个 神经 元 ， 所 以 ,在 











建立 起 理想 的 规模 之 前 ， 我 们 可 


能 不 得 不 重复 地 运行 计算 量 非常 大 的 训练 算法 很 


多 次 。 取 而 代 之 ,我们 希望 有 一 种 能 够 更 加 快速 地 找到 合适 规模 的 技术 。 


表 5.4 中 的 伪 代 码 总 结 了 一 





种 这 样 的 技术 。 思 路 是 从 一 个 非常 小 的 仪 包含 几 

















个 隐 层 神经 元 的 网 络 开 始 。 每 轮 
方 误差 的 和 。 这 个 误差 的 和 应 该 
一 个 确定 点 之 前 。 到 达 这 个 点 的 





学 习 之 后 ， 学 习 算 法 检查 在 训练 集 上 观察 到 的 均 
是 随 着 学 习 轮 数 的 增加 而 保持 下 降 的 ， 但 是 仅 到 
时 候 ， 或 者 是 因为 它 不 够 充分 的 灵活 性 导致 了 不 

















可 能 正确 分 类 ， 或 者 是 因为 它 落 
观察 到 这 个 的 时 候 ， 加 入 一 些 带 


入 了 一 个 局 部 极 值 点 ， 网 络 的 性 能 不 再 增长 。 当 
随机 初始 化 的 权重 的 神经 元 ， 继 续 训练 。 


表 5.4 逐步 寻找 一 个 好 的 隐 含 层 规模 





. 一 开始 ， 仅 使 用 几 个 隐 层 神经 元 ， 如 5 个 。 

















这 时 候 ， 向 隐 含 层 加 入 几 个 


BW N =e 





训练 网 络 直到 均 方 误差 看 起 来 不 再 改进 。 





(如 3 个 ) 带 随机 初始 化 的 权重 的 神经 元 ， 继 续 训练 。 








重复 2 ~3 步 直 到 满足 终止 性 条 件 。 例 如 ， 新 的 加 入 不 再 能 导致 显著 的 误差 下 降 ， 














或 隐 含 层 超过 了 用 户 设 定 的 最 大 规模 。 














通常 ， 加 入 的 灵活 性 使 得 进 





一 步 的 误差 下 降 成 为 可 能 。 如 图 5. 5 所 示 ， 错 误 








率 在 两 种 情形 下 “和 暂停” ， 加 入 新 的 隐 层 神经 元 提供 了 必要 的 新 的 灵活 性 。 
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均 方 误差 











轮 数 


图 5.5 当 训 练 集 上 的 均 方 误差 看 起 来 不 再 下 降 ， 可 以 通过 加 入 新 的 隐 
层 神 经 元 获得 进一步 的 改进 (在 本 例 中 ， 这 被 执行 了 两 次 ) 


Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 讨论 图 5.4 中 曲线 的 形状 。 非 常 小 和 非常 大 的 网 络 都 有 什么 缺点 ? 
。 解释 寻找 隐 含 层 合理 规模 的 算法 ， 它 面临 的 主要 困难 是 什么 ? 


























5.6 径 癌 基 困 数 网 络 


多 层 感 知 机 一 个 输出 神经 元 的 表现 与 线性 分 类 需 的 表现 是 类 似 的 。 这 样 ， 在 
类 别 线性 不 可 分 的 域 中 ， 它 可 能 会 被 认为 效果 很 差 。 但 是 ， 在 神经 网 络 领域 ， 这 
样 的 限制 不 一 定 是 有 害 的 。 事 情 是 这 样 的 ， 原 始 的 样 例 被 隐 含 层 的 S 形 函 数 进行 
了 变换 。 结 果 ， 和 输出 层 的 神经 元 处 理 的 是 这 些 变换 得 到 的 新 的 “属性 ” 。 在 训练 
过 程 中 ， 这 些 变换 了 的 样 例 〈 隐 层 神经 元 的 输出 ) 可 能 变 得 线性 可 分 了 ， 以 至 于 
输出 层 神经 元 可 以 没有 任何 困难 地 将 两 类 分 割 开 。 

替代 物 。 也 存在 变换 属性 值 的 其 他 方法 通过 使 用 所 谓 的 径 向 基 函 数 ( RBF ) 
作为 隐 层 神经 元 的 传递 函数 。 这 是 图 5.6 所 描绘 的 网 络 的 情形 。 一 个 输入 样 例 通 
过 一 组 神经 元 进行 传输 ， 每 个 神经 元 返回 一 个 标记 为 的 g, 值 。 
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图 5.6 meme Ms 





径 向 基 薄 数 一 一 RBF。 本 质 上 ， 这 是 基于 我 们 已 经 在 第 2 章 了 解 到 的 正 态 分 
布 。 假 设 描述 样本 的 属性 都 取 值 于 合理 大 小 的 区 间 ， 如 [ -1，1]。 给 定 一 个 方差 
o, I (5.5) 定义 了 中 心 位 于 p= [pw ，…， Mpa] 的 n 维 高 斯 曲面 : 
之 (x; = fh)” 


= 2 g 


























g(x) = exp (273) 














在 某 种 意义 上 ，w(xz) 度量 了 样 例 向 量 x 和 高 斯 中 心 pj 之 间 的 相似 性 ， 两 者 
之 间 的 距离 越 大 ，y,(x) 的 值 越 小 。 如 果 要 对 x 进行 分 类 ， 网 络 首先 重新 描述 它 
为 p(x) =[p1(x)，…，9。 (xX) ]。 然 后 ,计算 第 i 个 输出 神经 元 的 输出 信和 号 ， 


v= È wei(x) ， 这 里 色 是 第 j 个 隐 层 神经 元 到 第 个 输出 层 神经 元 之 间 连 接 的 
权重 (wi 连接 到 一 个 固定 的 gs = 1) 。 这 个 输出 信号 被 解释 为 支持 第 i 类 的 证 据 的 
数量 ， 样 例 被 标记 为 y, = max, |y, | 的 第 i 类 。 

输出 层 权重 。 建 立 输出 层 权重 w 是 相对 简单 的 。 因 为 只 有 一 层 的 权重 要 训 
练 ， 我 们 可 以 也 使 用 第 4 章 描述 的 感知 机 学 习 算法 ， 并 将 它 应 用 于 描述 经 过 隐 层 
神经 元 中 的 RBF 函数 变换 的 样 例 。 

高 斯 中 心 。 通 常 的 做 法 是 用 各 个 训练 样 例 作为 高 斯 中 心 w 。 如 果 训 练 集 比 较 
小 ， 则 我 们 可 以 简单 地 使 用 每 个 训练 样 例 对 应 一 个 隐 层 神经 元 。 但 是 ， 在 许多 现 
实 的 应 用 中 ,训练 集 是 非常 大 的 ， 这 意味 着 有 数 千 甚至 更 多 个 隐 层 神经 元 。 意 识 
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到 这 样 大 的 网 络 是 难处 理 的 ， 许 多 工程 师 倾向 于 仅 选 择 训练 样 例 的 一 个 小 的 子 集 
作为 高 斯 中 心 。 很 多 时 候 ， 随 机 选择 就 够 了 。 男 一 种 可 能 性 是 找到 几 组 “相似 
的 ”的 向 量 ， 然 后 为 每 个 RBF 神经 元 使 用 一 个 组 的 中 心 。 

基于 RBF 的 支持 向 量 机 。RBF 神经 元 将 原始 的 样 例 描 述 转换 为 包含 值 p， 

，9w 的 一 个 新 的 向 量 。 很 多 时 候 ， 这 个 转换 增加 了 转换 后 的 样 例会 是 线性 可 分 
的 机 会 。 这 使 得 将 它们 输入 一 个 权重 通过 感知 机 学 习 训 练 得 到 的 线性 分 类 器 成 为 
可 能 。 

这 可 能 是 一 个 合适 的 位 置 来 提 一 下 ， 也 是 很 常见 的 ， 将 4.7 节 介 绍 的 支持 向 
量 机 的 想法 应 用 于 变换 后 的 样 例 。 在 这 种 情况 下 ， 得 到 的 机 器 学 习 工 具 通 常 被 称 
为 基于 RBF 的 支持 向量 机 。 特 别 是 在 类 间 边 界 是 高 度 非 线性 的 域 中 ， 这 个 分 类 需 
比 普通 的 〈 线 性 ) 支持 向 量 机 更 加 强大 。 

计算 代价 。RBF 网 络 的 训练 包含 两 步 。 第 一 步 ， 选 择 径 向 基 消 数 (高 斯 ) 的 
中 心 。 第 二 步 ， 通 过 训练 得 到 输出 神经 元 的 权重 。 因 为 只 有 一 层 要 训练 ， 训 练 过 
程 比 多 层 感知 机 的 计算 量 要 小 很 多 。 



























































Pe cay 
£5 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 
解释 径 向 基 函 数 网 络 的 原理 。 它 在 哪些 方面 不 同 于 多 层 感 知 机 ? 
在 径 向 基 函 数 网 络 中 有 多 少 权 重 需要 训练 ? 如 何 完成 训练 ? 
对 于 建立 高 斯 隐 层 ， 有 哪些 可 
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5.7 总结 和 历史 简 评 

















多 层 感 知 机 的 基本 单元 是 神经 元 。 神 经 元 接受 一 个 输入 的 加 权 和 ， 并 传输 
这 个 和 到 一 个 传递 函数 。 一 些 不 同 的 传递 函数 都 可 用 。 本 童 选择 使 用 的 是 
如 下 等 式 所 定义 的 S 形 函 数 ,这 里 是 > 输入 的 加 权 和 : 
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1 
1 +e-z 





AX) = 








通常 ， 所 有 的 神经 元 都 使 用 相同 的 传递 函数 。 

这 一 前 所 描述 的 多 层 感 知 机 的 简单 版 本 由 一 个 输出 层 和 一 个 隐 含 层 的 神经 
元 组 成 。 相 邻 层 的 神经 元 是 全 连接 的 ， 但 是 同 层 神经 元 之 间 没 有 连接 。 一 
个 呈现 给 网 络 输入 的 样 例 要 被 前 向 传播 到 它 的 输出 ， 原 则 上 ， 执 行 如 下 
函数 : 















































yi =f Lui? 7 和 wp)) 
XE, w ?和 we 分 别 是 输出 层 和 隐 含 层 神经 元 的 权重 , /是 S 形 函 数 。 
多 层 感知 机 的 训练 是 通过 一 个 被 称 为 误差 反 向 传播 的 技术 实现 的 。 对 于 每 
一 个 训练 样 例 ， 这 个 技术 首先 确定 每 个 神经 元 各 自 对 于 网 络 整个 误差 的 责 
任 ， 然 后 按照 这 些 责 任 更 新 权重 。 
这 里 的 那些 责任 是 这 样 计算 的 : 
输出 层 神 经 元 : 8: =y,(1-y,) (4; -y;) 。 
隐 含 层 神经 元 : 6° = 万 (1 -万 ) E; 6 w0 
这 里 的 权重 是 这 样 更 新 的 : 
输出 展 : wP =w +e h,o 

































































BEE: wP =w +9 6 wi 

这 里 讨论 了 误差 反 向 传播 的 一 些 方面 。 这 些 方面 当中 ， 最 重要 的 是 计算 代 
价 ， 局 部 极 小 值 的 存在 ， 自 适应 学 习 率 ， 过 拟 合 的 危险 和 怎样 决定 隐 层 规 
模 的 问题 。 

一 个 蔡 代 物 是 径 向 基 (RBF) 网 络 。 对 于 隐 层 神经 元 中 的 传递 函数 ， 这 里 
使 用 了 高 斯 函数 。 输 出 层 神经 元 经 常 使 用 的 是 阶梯 函数 (原则 上 是 线性 分 
类 器 ) ， 或 简单 地 输入 一 个 线性 函数 。 

在 RBF 网 络 中 ， 每 一 个 高 斯 中 心 都 是 一 个 训练 样 例 。 如 果 有 太 多 样 例 的 
话 ， 可 以 进行 随机 选择 。 在 这 个 简单 版 本 中 ， 高 斯 标准 差 设 为 0? =1。 
RBF 网 络 的 输出 层 神经 元 可 以 用 感知 机 学 习 来 训练 ， 而 且 仅 有 这 一 层 的 权 
重 需 要 训练 。 






















































































第 5 章 
人 工 神 经 网 络 














。 有 了 时候， 文 持 疝 量 机 的 思想 会 被 应 用 于 隐 层 神经 元 的 输出 上 。 这 个 得 到 的 





工具 被 称 为 基于 RBF 的 支持 向 量 机 。 











历史 简 评 。 很 著名 地 ， 闵 斯 基 (Minsky) 和 帕 波 特 % (Papert) 提出 的 怀疑 
性 的 观点 延迟 了 神经 网 络 的 研究 。 两 位 知名 的 作者 所 表达 的 悲观 可 能 是 为 什么 布 





里 森 (Bryson) AIHA (Ho) 所 提出 的 一 个 早期 版 本 的 神经 网 络 训练 方法 被 忽视 
的 主要 原因 ， 沃 布 斯 (Werbos) 的 一 个 独立 的 成 功 尝试 也 享受 到 了 同样 的 命 
运 。 只 有 拉 莫 哈 特 '” (Rumelhart) 和 麦克 克 里 兰 德 (McClelland) 的 开创 性 的 书 
卷发 表 之 后 ， 算 法 才 被 独立 地 重新 提出 ， 人 工 神经 网 络 领域 才 成 为 一 个 受 人 尊敬 
的 学 科 。 阿 施 " (Ash) 提出 了 逐渐 成 长 的 多 层 感知 机 。 布 鲁 姆 汉 德 
(Broomhead) 和 洛 " (Lowe) 首先 在 神经 网 络 领域 提出 了 径 向 基 函 数 的 思想 。 


5.8 

















巩固 你 的 知识 











下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 





从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 





练习 





1. 回 到 表 5.3 中 对 误差 反 向 传播 的 描述 。 仅 使 用 一 支 笔 、 一 张 纸 和 一 个 计算 





器 ， 重 复 一 个 稍微 不 同 的 训练 样 例 的 计算 : x=( -1，-1)，:!z) =(1, 0)。 





. 像 前 面 的 例子 一 样 ， 手 动 模拟 误差 反 向 传播 ， 重复 以 下 两 种 情况 的 计算 。 





1) 高 的 输出 层 权 重 : wP =3.0, w9 = -3.0, wi? =3.0, wh? =3.0, 
2) 小 的 输出 层 权 重 : wP =0.3, wi? = -0.3, wi? =0.3, wH =0.3。 
观察 每 种 情况 下 权重 的 相对 变化 。 




















. 考虑 一 个 包含 10 个 样 例 ， 每 个 样 例 由 1000 个 属性 描述 的 训练 集 。 通 过 10” 




















轮 学 习 训 练 一 个 有 1000 个 隐 层 神经 元 和 10 个 输出 神经 元 的 多 层 感知 机 的 
计算 代价 是 多 少 ? 
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思考 题 


1. 


怎样 推广 误差 反 向 传播 技术 使 其 可 以 用 于 多 于 一 个 隐 含 层 的 多 层 感 知 机 ? 











2. 5.1 节 建 议 所 有 属性 都 应 该 标准 化 到 区 间 [ -1.0，1.0]。 如 果 属 性 没有 这 


.讨论 径 向 基 
.比较 径 向 基 








样 标准 化 ， 那 么 网 络 的 分 类 和 训练 会 受到 怎样 的 影响 ? (提示 : 与 S 形 函 
数 有 关 ) 

数 和 多 层 感 知 机 的 分 类 过 程 的 相似 和 不 同 之 处 。 

数 和 多 层 感 知 机 的 优势 和 劣势 。 





PK 
PKI 


上 机 实验 


1. 


. 将 上 机 实验 第 1 题 中 实现 的 程序 应 用 于 UC 库 中 的 一 些 


对 提前 定义 的 输出 和 隐 层 神经 元 个 数 ， 写 一 个 程序 实现 误差 反 向 传播 ， 使 
用 固定 的 学 习 率 7。 





基准 域 
(www. ics. uci. edu/ ~ mlearn/MLRepository. html), HA F ÉS n 值 进 行 训 
练 ， 并 观察 它们 如 何 影 响 收敛 的 速度 。 





. 对 于 一 个 给 定 的 数据 集 ， 用 多 层 感 知 机 中 不 同 数量 的 隐 层 神经 元 进行 实 


验 ， 并 观察 它们 是 如 何 影 响 网 络 的 学 习 能 力 的 。 


.再 一 次 用 不 同 个 数 的 隐 层 神经 元 进行 实验 。 这 次 ， 集 中 于 计算 代价 。 在 网 





络 收敛 之 前 ， 需 要 多 少 轮 的 学 习 ? 并 且 检 查 错误 率 的 演变 情况 。 





. 写 一 个 程序 ， 对 于 一 个 给 定 的 训练 集 ， 它 可 以 建立 一 个 径 向 基 葡 数 网 络 。 


对 于 大 的 训练 集 ， 随 机 选择 样本 来 定义 高 斯 中 心 。 





. 将 上 机 实验 第 5 题 中 实现 的 程序 应 用 于 UCI 库 中 的 一 些 基准 域 。 
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之 前 各 章 讨论 的 分 类 顺 希 望 所 有 属性 值 都 同时 给 定 。 但 是 ,这样 的 情境 有 它 


自身 的 缺点 。 一 个 想 要 掌握 病人 状况 本 质 的 内 科 医 生 ， 一 开始 时 








除了 了 解 一 些 主 


观 的 症状 ， 其 他 什么 都 没有 掌握 。 因 此 ， 她 开展 实验 测试 ， 并 且 基 于 这 些 结果 ， 
可 能 还 需要 做 其 他 测试 ， 以 缩小 诊断 的 范围 。 那 么 ， 在 任何 时 刻 ， 医 生 仅 考虑 那 
些 加 入 之 后 对 她 当前 的 信息 和 理解 有 意义 的 “属性 ” 。 从 一 开始 就 要 求 进行 所 有 
可 能 的 (成 和 上 万 种 的 ) 实验 测试 是 可 笑 的 。 

这 里 ， 得 到 的 教训 是 ， 详 尽 的 信息 往往 不 是 立即 可 得 的 ， 甚 至 可 能 是 不 需要 


的 。 根 据 情 况 所 需 每 次 选择 一 个 









































属性 ， 分 类 器 可 能 就 会 做 得 很 好 。 把 这 种 情形 作 


为 目标 的 最 常用 的 工具 是 决策 树 。 本 章 讲 述 它 的 分 类 性 能 ， 然 后 介绍 从 数据 中 归 
纳 学 习 一 棵 决策 树 的 一 项 简单 技术 。 读 者 还 会 学 到 如 何 从 树 的 前 校 中 获 益 和 如 何 
将 归纳 学 习 到 的 树 转 化 为 一 些 规则 。 


6.1 作为 分 类 如 的 决策 树 





表 6. 1 中 所 示 的 训练 集 包含 8 个 样 例 ， 每 个 样 例 由 3 个 属性 描述 ， 而 且 已 被 
标记 为 正 例 或 负 例 。 为 了 简化 对 基本 概念 的 解释 ， 我 们 假设 所 有 的 


的 。 随 后 ， 当 相关 原型 




















连续 属性 或 连续 与 离散 属性 混合 的 域 中 。 
































遇 性 都 是 离散 





B 


E 变 得 清楚 了， 我 们 会 很 轻易 地 推广 相应 方法 使 其 能 够 用 于 




















表 6.1 由 3 个 符号 属性 描述 的 、 已 被 分 类 为 正 例 和 负 例 的 8 个 训练 样 例 
样 例 crust size shape GER) filling size 类 别 
(外 壳 大 小 ) (饮料 的 量 ) 

el big circle Small pos 

e2 small circle small pos 

e3 big square small neg 

e4 big triangle small neg 

e5 big square big pos 

e6 small square small neg 





























pon 123 
决策 树 
( 续 ) 
crust size filling size 

样 例 2 shape (形状 ) L 类 别 
(SEK) j CAs) 

e7 small square big pos 
e8 big circle big pos 














决策 树 。 图 6. 1 中 展示 了 一 些 示 例 的 决策 树 ， 它 们 可 以 处 理 表 6. 1 中 的 数据 。 
内 部 结 点 代表 了 属性 值 测 试 ， 边 指示 了 在 多 种 测试 结果 的 情况 下 如 何 继续 进行 ， 


叶子 包含 了 类 别 标签 。 








Sa 
c) 








一 个 要 分 类 的 样 例 首先 输入 到 最 项 端的 结 点 ， 即 根 结 点 所 








图 6.1 针对 于 “ 派 ” 的 域 的 示例 决策 树 。 注 意 它们 在 规模 和 测试 顺序 方面 的 差 


异 。 它 们 中 的 每 一 个 都 正确 地 分 类 了 表 6. 1 中 列 出 的 所 有 训练 样 例 


124 


机 器 学 习 导 论 


规定 的 测试 中 。 然 后 ， 这 个 测试 的 结果 决定 了 这 个 样 例 要 沿 着 哪个 边 向 下 传送 ， 
这 个 过 程 一 直 持 续 ， 直 到 到 达 某 个 叶子 结 点 。 之 后 样 例 就 被 标记 为 与 这 片 叶子 相 
关联 的 类 别 。 

我 们 用 图 6. 1b 中 的 树 来 介绍 这 个 过 程 。 根 结 点 考察 形状 (shape), EAY3 个 
值 每 个 都 用 一 条 边 来 代表 。 在 样 例 e1、e2 和 e8 中 ， 形 状 的 值 是 圆 形 的 〈shape = 
circle) ， 它 对 应 于 左 侧 的 边 。 样 例 沿 着 这 条 边 向 下 传送 ， 结束 于 标记 为 正 类 
(pos) 的 一 个 叶 结 点 。 这 实际 上 就 是 这 3 个 样 例 共 同 的 类 别 。 对 ,形状 是 三 角 
形 的 (shape = triangle) ， 对 应 的 边 结束 于 一 个 标记 为 负 类 (neg) 的 叶 结 点 一 一 再 
一 次 地 ， 正 确 的 类 别 。 对 于 样 例 3，e5，e6 和 e7， 这 里 形状 是 正方 形 的 (shape = 
square ) ， 情 况 有 一 些 复杂 。 对 于 这 个 特定 的 值 ， 边 没有 结束 于 一 个 叶 结 点 ， 而 是 
一 个 含有 测试 的 结 点 ， 它 需要 知道 饮料 的 量 (filling - size) 的 值 。 对 e5 Fil e7 的 情 
况 ， 这 个 值 为 大 的 (big) ， 它 指向 一 个 标记 为 正 类 的 叶 结 点 。 另 外 两 个 样 例 ，e3 
和 e6， 这 个 值 为 小 的 〈small) ， 则 指向 了 一 个 标记 为 负 类 的 叶 结 点 。 

我 们 展示 了 图 6. 1b 中 的 决策 树 可 以 为 所 有 训练 样 例 找 到 正确 的 类 别 。 通 过 做 
一 些 练习 ， 请 读者 来 验证 图 6. 1 中 的 其 他 树 也 可 以 成 功 ( 从 某 种 意义 上 ， 决策 树 
可 以 看 作 一 种 简单 的 数据 压缩 机 制 ) 。 

可 解释 性 。 对 比 这 个 分 类 器 与 之 前 介绍 的 分 类 器 ， 我 们 可 以 看 到 一 个 明显 的 
优势 : 可 解释 性 。 如 果 有 人 问 为 什么 样 例 。 被 认为 是 正 例 ， 答 案 是 “因为 它 的 形 
状 是 圆 形 的 ”。 其 他 分 类 器 不 会 提供 这 种 解释 。 特 别 地 ， 神 经 网 络 是 一 个 真正 的 黑 
BF. 当 给 定 一 个 样 例 ， 它 简单 地 返回 一 个 类 别 而 从 不 提供 任何 关于 为 什么 这 个 
特定 类 标 要 优先 于 其 他 类 标的 深刻 见解 。 贝 叶 斯 和 线性 分 类 器 的 情况 也 不 会 好 很 
多 。 仅 有 近邻 分 类 器 提供 了 一 种 表面 上 的 相当 基本 的 讨论 。 例 如 ， 有 人 会 说 “x 
应 该 被 标记 为 正 类 是 因为 这 是 与 * 最 接近 的 训练 样 例 的 类 别 ”。 但 是 ， 这 样 的 陈述 
与 决策 树 所 做 的 准确 的 基于 属性 的 解释 相差 甚 远 。 

可 以 更 进一步 地 解释 决策 树 是 一 个 规则 的 集合 ， 例 如 ,“ 如 果 形 状 是 正方 形 的 
而 且 馅 料 的 量 是 大 的 ， 那 么 这 个 样 例 属于 正 类 ”。 一 个 检查 这 些 规则 的 领域 专家 可 
能 会 决定 这 些 规则 是 否 直 观 上 是 吸引 人 的 ， 以 及 它们 是 否 与 他 或 她 对 要 处 理 的 问 
题 的 “人 类 的 理解 ”一 致 。 专 家 甚至 可 能 会 关于 这 些 树 给 出 一 些 改进 的 建议 ， 例 




























































































































































































决策 树 


oy 


如 ， 通 过 指出 一 些 不 正确 的 测试 ， 这 些 不 正确 的 测试 存在 于 数据 结构 中 仅仅 是 因 
为 数据 中 的 一 些 随 机 的 规律 性 。 

缺失 的 边 。 读 者 会 记 起， 在 线性 分 类 融 的 情况 ， 一 个 样 例 可 能 恰好 位 于 类 别 
分 割 超 平面 上 ， 这 时 类 别 几 乎 是 随机 选 定 的 。 在 决策 树 中 ， 相 似 的 事情 偶尔 也 会 
发 生 。 假 设 图 6. La 中 的 树 用 来 决定 如 下 样 例 的 类 别 : 














( crust -size = small) | AND(shape = triangle) AND( filling - size = small) 


外 过 的 大 小 是 小 的 ， 形 状 是 三 角形 的 ， 而 且 馅 料 的 量 是 少 的 。 

我 们 一 步 一 步 遵循 学 习 过 程 进 行 。 根 结 点 需要 知道 外 过 的 大 小 (crust - size) 。 
知道 值 是 小 的 (small) ， 分 类 将 样 例 从 右 侧 的 边 向 下 传送 ， 到 达 对 形状 (shape) 
的 测试 。 这 里 ， 只 有 两 个 结果 看 起 来 是 可 能 的 : 圆 形 的 (circle) 或 正方 形 的 
(square), ， 但 是 没有 三 角形 的 〈triangle) 。 原 因 是 ， 创 建 这 棵 树 的 人 并 不 知道 一 个 
外 壳 小 (crust -size =small) 的 物体 会 是 三 角形 的 : 训练 集中 就 不 存在 这 种 东西 。 
因此 ， 看 起 来 没有 什么 理由 来 创建 相应 的 边 。 即 使 创建 了 这 条 边 ， 也 不 清楚 它 应 
该 指向 哪里 。 

用 计算 机 程序 实现 这 个 分 类 需 的 工程 师 必 须 确定 程序 “知道 ”在 存在 “缺失 
的 边 ”的 情况 下 该 做 什么 。 随 机 地 选择 类 别 或 倾向 于 出 现 最 频繁 的 类 别 是 最 显然 
的 可 能 。 





























F 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 描述 用 决策 树 来 分 类 样 例 的 机 制 。 用 图 6.1 中 的 决策 树 和 表 6.1 中 的 训练 
样 例 描绘 决策 树 分 类 的 过 程 。 
© “决策 树 对 一 个 具体 类 别 的 选择 是 可 以 解释 给 用 户 的 ”"， 这 个 陈述 是 什么 意 
B? 前 面 章节 讨论 的 分 类 器 是 否 有 相似 的 可 能 ? 
e 在 什么 情况 下 ， 决 策 树 不 能 决定 一 个 样 例 的 类 别 ? 如 果 你 是 程序 员 ， 你 会 
如 何 处 理 这 种 情况 ? 
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6.2 决策 树 的 归纳 学 习 


我 们 从 一 个 非常 粗糙 的 归纳 学 习 算 法 开始 。 将 它 应 用 到 一 个 训练 集 ， 我 们 将 
会 得 到 很 多 的 替代 的 决策 树 。 一 个 简短 的 讨论 会 让 我 们 相信 ， 在 这 些 决策 树 中 ， 
稍 小 的 更 受 青睐 。 这 个 观察 会 促使 产生 一 个 改良 版 本 的 技术 ， 并 因此 为 后 面 的 章 
节 打 下 基础 。 

分 而 治之 。 我 们 试 着 手工 创建 一 棵 决策 树 。 假 设 我 们 决定 根 结 点 要 测试 形状 
(shape) 的 值 。 在 训练 集中 ， 可 以 找到 3 个 不 同 的 结果 : 圆 形 的 (circle), =f 
JEN) (triangle) 和 正方 形 的 (square) 。 对 于 每 一 个 ,分 类 带 需 要 从 根 结 点 引出 一 
条 边 。 第 一 条 边 ， 定 义 为 形状 是 圆 形 的 (shape = circle), APPT, = | el ，e2， 
e8| WE; 第 二 条 边 ， 定 义 为 形状 是 三 角形 的 (shape = triangle), A FEDT, = 
1e4} WE; 最 后 一 条 边 ， 定 义 为 形状 是 正方 形 的 (shape = square) ， 有 样 例 7, = 
1e3，e5，e6，e7} 满足 。3 条 边 中 每 一 条 都 开始 于 根 结 点 终止 于 其 他 结 点 ， 可 能 
是 一 个 属性 测试 结 点 或 包含 类 别 标号 的 叶子 结 点 。 

观察 发 现 ，7, 中 的 所 有 样 例 都 属于 正 类 ， 我 们 让 这 条 边 指 向 一 个 标记 为 正 类 
(pos) 的 叶子 结 点 。 类 伏地 ， 和 中 样 例 满足 的 边 应 该 指向 一 个 标记 为 负 类 (neg) 
的 叶子 结 点 。 仅 在 最 后 一 条 边 的 情况 会 出 现 一 定 的 困难 ， 因 为 办 由 两 类 混合 而 成 。 
为 了 分 割 开 它们 ， 我 们 需要 将 另 一 个 测试 ， 如 饮料 的 量 (filling - size), ETA 
的 末端 。 这 个 属性 可 以 获得 两 个 值 : 小 的 (small) 和 大 的 (big) ， 它 们 将 7; 划 分 
AVI FS, EP, 7... = 1e3 ，e6} 由 饮料 的 量 是 小 的 〈filing - size = small) 来 
刻画 ; 另 一 个 ,7T,，= !e，e7} 由 饮料 的 量 是 大 的 (filing - size = big) 来 刻画 。 
7,_s 中 的 所 有 样 例 都 属于 正 类 ， 而 7,_s 中 的 所 有 样 例 都 属于 负 类 。 这 允许 我 们 以 
叶 结 点 来 结束 这 两 条 边 ， 并 且 前 一 个 标记 为 正 类 (pos), 后 一 个 标记 为 负 类 
(neg) 。 这 时 ， 构 建树 的 过 程 可 以 终止 了 ， 因 为 每 一 个 呈现 给 创建 的 分 类 器 的 训练 
样 例 都 到 达 了 一 个 叶 结 点 。 

读者 会 注意 到 ， 树 的 每 个 结 点 可 以 与 一 些 样 例 相 关联 ， 这 些 样 例 或 经 过 它 或 
终结 于 它 。 开 始 于 根 结 点 ， 每 一 个 测试 将 训练 集 划 分 为 不 相交 的 子 集 ， 然 后 这 些 
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子 集 被 进一步 划分 为 更 小 的 子 集 ， 这 样 一 直下 去 ， 直 到 在 一 定 意 义 上 讲 ， 每 个 子 
集 都 变 成 “ 纯 的 ”， 它 的 所 有 样 例 都 属于 同一 类 。 这 就 是 为 什么 这 个 方法 有 时 候 
被 称 为 分 而 治之 的 技术 。 

代替 的 树 。 在 如 上 描述 的 过 程 中 ,形状 (shape) AMA BEE (filling - size ) 
的 (相当 任意 的 ) 选择 导致 了 图 6. 1b 所 示 的 决策 树 。 为 了 熟悉 其 中 的 机 制 ， 葡 励 
读者 用 其 他 的 替代 物 ， 如 将 外 壳 大 小 (crust - size) 或 饮料 的 量 (filling - size) 用 
于 根 结 点 的 测试 和 在 稍 低层 考虑 不 同 的 测试 的 选择 ， 来 进行 使 用 。 这 样 将 会 创建 
出 非常 多 的 不 同 的 决策 树 一 一 图 6. 1 中 描绘 了 其 中 的 一 些 。 

在 这 样 一 个 非常 简单 的 玩具 域 中 都 能 找到 这 么 多 解 ， 是 一 个 非常 值得 思考 的 
问题 。 有 没有 一 种 办 法 可 以 决定 哪 棵 树 更 好 ? 这 样 ， 分 而 治之 技术 的 一 个 改进 版 
本 应 该 通过 设计 而 不 是 仅 靠 机 会 得 到 一 棵 “好 的 ” 树 。 

树 的 规模 。 图 6. 1 中 最 小 的 数据 结构 包含 两 次 属性 测试 ， 最 大 的 包含 5 K, 
这 种 不 同 对 分 类 器 的 性 能 可 能 会 有 很 大 的 影响 。 然 而 ， 在 继续 讨论 这 个 现象 的 不 
同方 面 之 前 ， 我 们 强调 树 中 结 点 的 个 数 不 是 其 规模 的 唯一 标准 。 测 试 的 次 数 也 很 
重要 ， 当 分 类 普通 样 例 的 时 候 必 定 要 进行 测试 。 

例如 ， 在 一 个 形状 (shape) 几乎 总 是 圆 形 的 (circle) 或 三 角形 的 (triangle) 
域 中 〈 仅 有 很 少 的 正方 形 的 (square) ) ， 图 6. 1b 的 树 执行 的 平均 测试 次 数 将 仅仅 
稍微 超过 1， 因 为 形状 为 圆 形 的 (shape = circle) 和 形状 为 三 角形 的 (shape = 
triangle) 都 直接 指向 了 带 类 别 标号 的 叶子 结 点 。 但 是 如 果 形 状 普遍 都 是 正方 形 的 
(square) ， 则 平均 测试 次 数 会 接近 2。 那 么 ， 经 常 地 ， 稍 大 的 树 比 稍 小 的 树 可 能 会 
需要 更 少 次 的 测试 。 

小 树 相对 于 大 树 。 关 于 为 什么 更 倾向 于 小 的 决策 树 有 很 多 原因 。 原 因 之 一 是 
可 解释 性 。 人 类 专家 发 现 一 个 仅 包含 几 次 测试 的 决策 树 是 容易 分 析 和 解释 的 ， 甚 
至 是 容易 修正 的 。 树 越 大 ， 做 这 些 越 困 难 。 

小 的 决策 树 的 另 一 个 优势 是 它们 对 处 理 不 相关 的 和 多 余 的 信息 的 倾向 。 图 
6. la 中 相对 大 的 树 使 用 了 全 部 的 3 个 属性 ， 而 图 6. 1b 中 稍 小 的 一 个 在 分 类 训练 集 
方面 表现 一 样 好 但 没有 考虑 外 壳 的 大 小 (crust - size )。 这 样 的 经 济 性 在 一 些 属性 
值 获取 代价 高 或 花费 时 间 多 的 领域 是 有 用 的 。 
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最 后 ， 大 的 树 倾向 于 过 拟 合 训练 样 例 。 这 是 因为 分 而 治之 方法 持续 地 将 训练 
集 划分 为 越 来 越 小 的 子 集 ， 这 些 划 分 的 次 数 等 于 树 中 属性 测试 的 次 数 。 最 终 ， 得 
到 的 训练 子 集 变 得 太 小 ， 以 至 于 类 别 的 划分 仅仅 是 利用 在 剩余 的 正 例 和 负 例 中 一 
个 基于 机 会 或 噪声 获得 不 同 值 的 属性 来 进行 的 。 

小 的 决策 树 的 归纳 学 习 。 在 描述 手工 构建 树 的 过 程 中 分 而 治之 技术 的 性 能 时 ， 
我 们 随机 地 挑选 属性 。 这 样 做 的 时 候 ， 我 们 观察 到 一 些 选择 会 比 男 一 些 导致 更 小 
的 树 。 显 然 ， 属性 之 间 在 承载 了 多 少 信息 上 是 不 同 的 。 例 如 ， 形 状 (shape) 可 以 
直接 将 一 些 样 例 标 记 为 正 例 ( 如果 值 为 圆 形 的 ( circle) ) 或 负 例 (如果 值 为 三 角 
形 的 (triangle) ) ; 但 是 外 过 的 大 小 (crust - size) 却 做 不 到 ， 除 非 有 其 他 属性 的 
协助 。 

假如 有 一 种 度量 每 个 属性 提供 的 信息 量 的 方法 (实际 上 这 样 的 机 制 是 存在 的 ， 
见 6.3 节 )， 我 们 已 经 准备 好 将 决策 树 的 归纳 学 习 技术 通过 伪 代 码 形式 化 出 来 ， 读 
者 可 以 在 表 6. 2 中 看 到 它 。 







































































表 6.2 决策 树 的 归纳 学 习 
令 了 是 训练 集 。 
grow (T): 
1. 找到 属性 atz， 它 关于 类 别 标号 贡献 了 最 多 的 信息 类 。 
2. 将 了 划分 为 子 集 7, ， 每 一 个 用 at 的 一 个 不 同 的 值 来 刻画 。 






































3， 对 于 每 个 7: 
1) WRT, 中 所 有 的 样 例 都 属于 同一 个 类 别 ， 则 创建 一 个 标记 为 这 个 类 别 的 叶子 
结 点 。 


2) 和 否则， 递归 地 应 用 同样 的 过 程 到 每 个 训练 子 集 上 ， 即 grow (也 ) 。 


P 
H 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

o 解释 为 归纳 学 习 决 策 树 的 分 而 治之 技术 的 原理 。 

© 相 比 于 稍 大 的 决策 树 ， 小 的 决策 树 有 什么 优势 ? 

e 什么 决定 了 由 分 而 治之 技术 得 到 的 决策 树 的 大 小 ? 
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6.3 ”一 个 属性 承载 了 多 少 信息 


为 了 创建 一 棵 相对 小 的 决策 树 ， 分 而 治之 技术 依赖 于 一 个 关键 的 组 成 部 分 ， 
即 决 定 各 个 属性 所 承载 的 关于 类 别 标号 的 信息 有 多 少 。 这 一 节 就 介绍 一 种 计算 这 
个 量 的 机 制 。 

一 个 消息 的 信息 含量 。 假 设 我 们 已 知 训练 样 例 被 标记 为 pos 或 neg， 这 两 类 的 
相对 频率 分 别 为 p,,. 和 p,,,( 回忆 一 下 ，pos 的 相对 频率 是 标记 为 pos 的 样 例 (在 训 
练 集中 ) 的 百分比 ， 它 代表 了 一 个 随机 抽取 的 样 例 属 于 正 类 的 概率 ) 。 我 们 选择 
一 个 随机 的 训练 样 例 。“ 这 个 样 例 的 类 别 是 pos”， 这 个 消息 传递 出 了 多 少 信息 ? 

答案 取决 于 p,,,。 所 有 样 例 都 已 知 为 正 例 的 极端 的 情况 下 ，p,,, = 1， 这 个 消息 
并 没有 告诉 我 们 任何 新 的 信息 。 即 使 没有 告诉 这 个 消息 ， 读 者 也 已 经 知道 这 个 样 
例 是 正 例 了 。 如 果 已 知 两 类 被 相同 地 代表 ， 即 p,, = 0.5， 人 情况 就 要 改变 了 。 这 里 ， 
猜想 并 不 比 投掷 一 枚 硬币 效果 好 ， 因 此 这 个 消息 提供 了 一 些 信息 。 如 果 已 知 大 部 
分 样 例 都 是 负 例 ， 如 Pi = 0.01,， 那 读者 几乎 可 以 确定 选 出 来 的 样 例 也 将 会 是 负 
fil; 但 告诉 他 并 非 如 他 所 想 的 消息 就 会 令 其 感到 意外 了 。 而 且 ，p,, 的 值 越 小 ， 这 
个 消息 所 提供 的 信息 越 多 。 

当量 化 这 样 一 条 消息 的 信息 含量 时 ， 式 (6. 1) 很 方便 : 

Io = ~ log, ° ppo (6.1) 

这 里 的 负 号 弥补 了 p,,. (0, 1) 的 对 数 总 是 负数 的 事实 。 表 6.3 展示 了 一 些 
典型 的 pr, 值 的 信息 含量 。 注 意 ， 信 息 量 的 单位 是 比特 ( bit) 。 另 一 点 评论 : 对 数 
的 底 是 2， 相 当 常 见 的 是 将 其 写 为 log 2P ,而 不 是 更 加 严谨 的 log, poo 


























































































































O 本 书 原著 中 将 lbx 统 写 为 log,x 的 形式 ， 全 书 余 同 ， 故 本 书 中 将 x 的 以 2 为 底 的 对 数 
统 写 为 log,x。 

O 本 书 原著 中 将 lgx 缩写 为 logx 的 形式 ， 全 书 余 同 ， 故 本 书 中 将 x 的 以 10 为 底 的 对 数 
缩写 为 logx。 
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表 6.3 消息 “这 个 随机 抽取 的 样 例 是 正 例 ”的 信息 含量 的 一 些 值 ( 用 bit 度量 ) 。 
注意 ， 对 pu =0， 消 息 是 不 可 能 出 现 的 














Pros = log, ppos 
1. 00 Obit 
0. 50 1bit 
0.25 2bit 
0. 125 3bit 








炉 (平均 信息 含量 ) 。 一 条 消息 的 信息 含量 有 这 么 多 。 然 而 ,假设 多 次 重复 
实验 。 两 种 消息 都 会 出 现 ,“ 样 例 是 正 例 ” 和 “ 样 例 是 负 例 ”， 第 一 个 有 概率 p,，， 
第 二 个 有 概率 p,.,。 那 这 些 消 息 平均 的 信息 含量 可 以 通过 式 (6.2) 得 到 ， 这 里 每 
条 消息 的 信息 含量 都 由 它 的 概率 进行 了 加 权 (参数 7 了 指 的 是 训练 集 ) : 

H(T) = 一 Pologs Ppos ~ PneglB2 P neg (6. 2) 

细心 的 读者 会 抗议 说 0 的 对 数 是 没有 定义 的 ， 如 果 P =0 或 m。 =0， 则 式 
(6.2) 可 能 是 没 用 的 。 幸 运 地 ， 简 单 的 分 析 (使 用 极限 和 洛 必 达 法 则 ) 会 告诉 我 
1), BE p 趋 于 0，plogp 也 趋 于 0， 这 意味 着 0 : log0 =0。 

HCT) BRN THIR Hpo = Ps =0.5 时 ， 它 的 值 达到 最 大 ，H(7) =1( 因 
为 -0.5. log0.5 -0.5 + log0.5 =1); Hpo =1 Rp =1 时 ， 它 的 值 降 到 最 小 , H 
(7) =1( 因 为 0 log0 +1 + logl =0)。 顺 便 提 一 下 ，p, =1 Bp, = 1 的 情况 被 视 为 
完美 的 规律 性 ， 因 为 所 有 的 样 例 都 属于 同一 个 类 别 ， 相 反 地 ，p,。 =p, =0.5 的 情 
况 被 视 为 完全 缺乏 规律 性 。 

一 个 属性 贡献 的 信息 量 。 焙 (规律 性 的 缺失 ) 的 概念 会 帮助 我 们 解决 一 个 主 
要 的 问题 : 一 个 离散 属性 at 的 值 的 知识 告诉 我 们 多 少 关于 样 例 类 别 的 信息 ? 

让 我 们 提醒 自己 ，w 将 训练 集 7 划分 为 子 集 7;,， 每 一 个 7, 用 一 个 不 同 的 ait 值 
来 刻画 。 相 当 自然 地 ， 每 个 子 集会 以 其 自己 的 两 个 类 别 (pi,, 和 p,,,) 的 概率 (用 
相对 频率 估计 的 ) 为 标志 。 基 于 这 些 知识 , 式 (6.2) BA h AA DT AY HH, 
BIH(T,) 。 

ME, & | ÆT, 中 的 样 例 数 ，|7 | 是 整个 训练 集 7 中 的 样 例 数 。 一 个 随机 
抽取 的 训练 样 例 在 7; 中 的 概率 可 以 估计 如 下 : 







































































决策 树 

IT, | 
P= Tey (6.3) 

Fe TARE TT FEY OE SY : 
H(T, a) = 》 ,P,: H(T,) (6.4) 


得 到 的 结果 A(T, at), FET ABI, LAE SUNS Salis A at 

MAE MI, BBA, at TRIN Baie SBE ZS Ze : 
I(T, at) =H(T) -HC(T, at) (6.5) 

数学 家 能 容易 地 证 明 这 个 差 值 不 会 是 负数 的 。 考 虑 中 ， 信 息 只 能 获得 而 不 会 
失去 。 然 而 ， 在 某 些 非常 稀少 的 情况 下 ， 如 (7，w) =0， 这 意味 着 没有 信息 
获得 。 

将 式 (6.5) 分 别 应 用 于 各 个 属性 ， 我 们 可 以 发 现 它 们 中 的 哪个 提供 了 最 多 
的 信息 量 ， 并 且 证 它 作为 表 6. 2 所 示 算 法 的 第 1 步 中 “ 根 结 点 ”测试 的 最 佳 选择 。 

表 6.4 中 的 伪 代 码 总 结 了 刚才 描述 的 过 程 。 这 个 过 程 开始 于 计算 系统 的 粹 ， 
这 里 仅 有 类 别 的 百分比 是 知道 的 。 下 一 步 , 算法 计算 每 个 属性 所 承载 的 信息 增益 。 
提供 了 最 高 信息 增益 的 属性 被 认为 是 最 佳 的 。 





















































表 6. 4 找到 最 有 信息 量 的 属性 的 算法 


1. 使 用 正 例 和 负 例 的 百分比 ，p,,. 和 p,., EVRE THR: HCT) = 一 Pslog Pros 
Dueslogs Prego 

2. 对 于 每 个 将 7 以 相对 大 小 P; 划分 为 子 集 
1) 计算 每 个 子 集 7, WIE. 
2) AEM: HCT, ot) = > P,- HCT) o 
3) 计算 信息 增益 : I(T, at) =H(T) -HC(T, at), 

3. 选择 有 最 高 信息 增益 的 属性 。 




















T; 的 属性 at, WTA FERR: 


aor 



































图 示 。 表 6.5 展示 了 在 表 6. 1 的 域 中 怎样 使 用 这 个 机 制 选择 最 有 信息 量 的 属 
性 。 首 先 ， BOR ARTE ASH A(T), Aa, RIRKA, 例如， 形状 
(shape) 属性 会 将 训练 集 划 分 为 3 SF. WR EME ACT, shape), 
WRH(T) 5 H(T, shape) 之 间 的 差 值 ， 给 出 了 这 个 属性 所 承载 的 信息 量 。 对 外 
过 的 大 小 (crust - size) 和 饮料 的 量 (filling - size) 重复 这 ， 并 比较 得 到 的 
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结果 ， 我 们 会 发 现形 状 〈shape) 比 其 他 两 个 属性 贡献 了 更 多 的 信息 ， 这 就 是 为 什 
么 我 们 为 根 结 点 的 测试 选择 形状 (shape) 属性 。 
顺便 说 一 下 ， 这 就 是 图 6. 1b 中 的 决策 树 是 怎么 得 到 的 。 














Pam 








#65 图 示 寻 找 最 有 信息 量 的 属性 
































P ea PE a a 
el big circle small pos 
e2 small circle small pos 
e3 big square small neg 
e4 big triangle small neg 
e5 big square big pos 
e6 small square small neg 
el small square big pos 
e8 big circle big pos 





























这 是 训练 集 的 精 ， 这 里 只 有 类 别 标签 是 已 知 的 ; 
HCT) = -plog pr -pslog Puy = ~ (lon (=) - (+ }lo (4) =0. 954 
下 一 步 ， 我 们 计算 由 形状 (shape) 的 什 定 义 的 子 集 的 炳 : 


H( shape = square) = (3 )os (3 ) (4 joe (4 )=1 

















H( shape = circle) = ( 3 Jos 3 ) ( 3 Joe( 3 )=0 
H( shape = triangle) = (5 Joe($ ) ( tog ; )=0 
WX HEEL, FET AT AER RARP, A EK eR EMAR (shape) 的 值 是 知 

















H(T, shape) = (+) “1+ (+) “0+ (x) ‘0=0.5 

为 其 他 两 个 属性 重复 相同 的 过 程 ， 我 们 得 到 如 下 结 

H(T, crust - size) =0. 951 

H(T, filling - size) =0. 607 

这 些 值 给 出 了 如 下 的 信息 增益 

I(T, shape) =H(T) -H(T, shape) =0. 954 -0.5 =0. 454 

















决策 树 
( 续 ) 
I(T, crust — size) =H(T) -H(T, crust - size) =0. 954 -0. 951 =0. 003 
I(T, filling - size) =H(T) -H(T, filling - size) =0. 954 -0. 607 =0. 347 








我 们 断定 形状 (shape) 属性 贡献 了 最 大 的 信息 量 。 


Fi 你 学 到 了 什么 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 我 们 谈论 “一 个 消息 所 承载 的 信息 量 ” 时 ， 我 们 的 意思 是 什么 ? 这 个 量 是 
怎样 确定 的 ， 用 什么 单位 ? 
eT ARM? 它 是 怎样 与 训练 集中 的 正 例 和 负 例 出 现 的 频率 关联 起 来 的 ? 

e 当 评 估 一 个 属性 所 贡献 的 信息 量 时 ， 我 们 怎样 使 用 精 ? 

















6.4 数值 属性 的 二 元 划分 








前 一 节 中 的 基于 粹 的 机 制 要 求 所 有 的 属性 都 是 离散 的 。 但 是 ,通过 一 些小 的 
修改 ， 同 样 的 方法 也 可 以 应 用 到 连续 属性 上 。 我 们 需要 做 的 只 是 将 它们 转换 为 布 
尔 属性 。 

将 一 个 连续 属性 转换 为 布尔 型 的 。 我 们 用 % 来 标记 连续 属性 。 技 巧 是 选择 一 
PBUH O, HIRE MER x <9， 则 新 创建 的 布尔 属性 的 值 为 ue， 否则 为 false ( 反 
之 亦 然 ) 。 

足够 简单 。 但 是 ， 具 体 选 择 什么 样 的 9 值 呢 ? 毫 无 疑问 ， 有 很 多 可 选 。 这 里 
是 一 个 可 能 性 。 

假设 N 个 训练 样 例 的 每 一 个 中 x 都 有 不 同 的 值 。 我 们 将 这 些 值 按 升 序 排列 ， 
标记 最 小 的 为 x, ， 最 大 的 为 x,。 任 何 一 对 相 邻 的 值 ，x, Al x,,,, WELT 
值 ，0, = (x;+xi,1)/2。 例 如， 在 一 个 有 4 个 样 例 的 训练 集中 , x 有 值 3、4、6 和 
9， 我 们 会 考虑 9, =3.5、0 =5 MM, =7.5。 对 于 这 N -1 个 阅 值 中 的 每 一 个 ,我 们 
计算 所 定义 的 布尔 属性 贡献 的 信息 量 ， 然 后 选择 信息 增益 最 大 的 那个 阔 值 。 
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候选 阔 值 。 刚 才 描述 的 方法 因 其 过 高 的 计算 代价 会 受到 批评 。 实 际 上 ， 在 一 
个 包含 十 万 个 样本 ， 每 个 样本 由 100 个 属性 描述 (并 不 特别 ) 的 域 中 ， 有 10 x 
10° = 10 个 不 同 闪 值 的 信息 含量 要 被 计算 。 幸 运 的 是 ， 数 学 家 曾 证 明 这 些 阔 值 中 
的 大 部 分 都 可 以 被 忽略 。 这 将 计算 代价 缩 到 了 很 小 的 一 部 分 。 

表 6.6 描述 了 其 中 的 原理 。 在 上 边 的 部 分 ,x 的 13 个 值 从 左 到 右 依次 排序 ， 
每 一 个 都 被 标记 为 有 相应 值 的 训练 样 例 的 类 别 (〈 正 类 或 负 类 ) 。 这 里 的 规则 是 : 
最 佳 阔 值 总 不 会 是 在 标记 为 相同 类 别 的 值 之 间 。 这 意味 着 仅 考察 不 同类 别 标号 的 
值 之 间 的 位 置 所 贡献 的 信息 就 足够 了 。 在 表 6.6 所 示 的 特定 的 例子 中 , 仅 有 3 个 
HEMEL, BNO, 、9, 和 6 ， 需 要 考察 (其 中 0 是 最 好 的 ) 。 
























































表 6.6 ”图 示 寻 找 最 佳 阔 值 
属性 x 的 值 按 照 升序 排列 。 E REDIRE A nd 




















+ 十 二 十 十 ! 一 一 一 一 一 it 十 1 一 
@_0-0 © © o coocoo o o © 
1 1 1 x 
6, 6， 65 
FUE A EE ZJE ARR I 
7 6 6 
H(T) = -p,logp, -p_logp_ = (二 jos (5 | (£ jos( 言 )=0 9957 























reeel) C ale) 
we 人 (人 ja 全 -aa 
H(x <0,) = (i Jios( $) (5 jos()=1 

H(x >0,) = (5)oe(3) (3 js()=0 9183 
H(x <0,) = (去 jes( 均 和 (3 Jios (3) =0 9799 
H(x >0,) = (Joe( $) (5 Jios(4-) =0 
AP BUA ESSE : 

H(T, o) = (车 ) 0+ (5): 0. 8113 =0. 4993 





ACT, 0,) = (=) -1+ (5) - 0.9183 =0. 9811 








(28) 

H(T, 0,) = ($) -0.9799 + (45) - 0 =0. 9045 

13 13 
各 个 候选 闽 值 所 带 来 的 信息 增益 为 ; 
I(T, 0,) =H(T) -H(T, 6,) =0.9957 -0. 4993 =0. 4964 
I(T, 0,) =H(T) -H(T, 6,) =0. 9957 -0.9811 =0. 0146 
I(T, 0,) =H(T) -H(T, 6,) =0. 9957 -0. 9045 =0. 0912 
阔 值 ,给 出 了 最 高 的 信息 增益 。 

















一 棵 数值 决策 树 的 根 结 点 。 表 6.7 的 伪 代 码 总 结 的 算法 为 所 有 属性 都 连续 的 
一 个 域 中 的 一 棵 决策 树 的 根 结 点 决定 了 最 佳 的 属性 测试 。 注 意 ， 这 个 测试 包含 一 
个 数值 对 [at;，0;] ， 这 里 at; 是 所 选择 的 属性 ，0; 是 为 这 个 属性 找到 的 最 佳 阅 值 。 
如 果 一 个 样 例 的 第 i 个 属性 值 小 于 这 个 闪 值 ， 即 at; < 0;， 就 到 决策 树 的 左边 分 支 
中 ; 否则 ， 选 择 右边 分 支 。 









































表 6.7 找到 最 优 数 值 属性 测试 的 算法 











1. 对 于 每 个 属性 ai,: 
1) 基于 ol 的 值 对 训练 样 例 排序 。 
2) 决定 候选 国 值 0; ， 选 择 那些 位 于 有 不 同 标号 的 样 例 之 间 的 阔 值 。 
3) 对 于 每 个 9;， 决 定 所 创建 的 布尔 属性 贡献 的 信息 量 。 

2. 选择 提供 了 最 高 信息 增益 的 对 [at;，0, ]。 






































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 解释 为 什么 本 节 建 议 将 一 个 连续 属性 的 域 划分 为 两 个 子 域 。 

e 什么 数学 发 现 减 少 了 需要 考察 的 阀 值 个 数 ? 





6.5 Bib 





6. 2 节 称 赞 了 小 的 决策 树 的 好 处 





可 解释 性 ， 移 除了 不 相关 的 和 多 余 的 属 
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性 ， 降 低 了 过 拟 合 的 危险 。 这 些 争论 促使 了 信息 论 在 归纳 学 习 决 策 树 的 过 程 中 的 
实验 ; 它们 也 促使 了 下 面 的 步 又 一 一 剪 校 。 

本 质 。 图 6. 2 会 帮助 我 们 解释 其 中 的 原理 。 左 边 是 原始 的 决策 树 ， 它 的 6 个 
属性 测试 分 别 命 名 为 t ，…，ts。 右 边 是 剪 校 后 的 版 本 。 注 意 ， 原 树 中 以 测试 结 点 
ty 为 根 的 子 树 在 剪 枝 后 的 树 中 被 奉 换 为 了 一 个 标记 为 负 类 的 叶子 结 点 ; 以 测试 结 
点 6 为 根 的 子 树 被 蔡 换 为 了 一 个 标记 正 类 的 叶子 结 点 。 读 者 可 以 看 到 这 一 点 : BY 
枝 就 是 将 一 棵 或 多 棵 子 树 用 叶子 替换 ， 每 一 个 标记 为 在 原来 分 类 器 中 到 达 被 移 除 
子 树 的 训练 样 例 中 最 普遍 的 类 别 。 



































将 一 个 测试 结 点 替换 为 一 个 叶子 结 点 





62 一 个 简单 的 前 校方 法 会 将 一 棵 子 树 替换 为 一 片 叶子 





一 个 纯粹 主义 者 可 能 会 抗议 : 归纳 学 习 的 机 制 是 要 创建 一 棵 在 训练 样 例 上 得 
到 0 错误 率 的 决策 树 ， 但 是 在 剪 校 的 树 中 这 种 完美 可 能 就 丢失 了 ! 但 是 实用 思想 
的 工程 师 却 并 不 惊慌。 最 终 的 目标 又 不 是 分 类 训练 样 例 ( 毕 竞 他 们 的 类 别 已 经 知 
道 了 ) 。 准 确 地 说 ,我们 需要 的 是 一 个 可 以 标记 未 来 样 例 的 工具 。 而 且 经 验 说 明 合 
HAY BY SCA FF ZS GHEE 

误差 估计 。 剪 梳 通 常 由 一 系列 步骤 来 实现 : 首先 将 一 棵 子 树 蔡 换 为 一 片 叶子 ， 
然后 另 一 哥 ， 如 此 下 去 ， 只 要 按照 一 些 合理 的 准则 这 种 替换 看 起 来 是 有 利 的 。“ 有 
利 ” 这 个 词 意味 着 ， 警 示 我 们 小 的 树 的 优势 不 应 该 比 降低 分 类 性 能 更 重要 。 

这 给 我 们 带 来 了 误差 估计 的 问题 。 图 6. 2 描述 了 它 的 原理 。 令 m 是 到 达 左 侧 
决策 树 的 测试 结 点 ts 的 训练 样 倒数。 如果 我 们 用 一 个 叶子 结 点 来 蔡 换 以 与 为 根 的 
子 树 〈 正 如 在 右 侧 的 树 中 发 生 的 ) ， 则 这 m 个 样 例 中 会 有 一 些 可 能 被 错误 分 类 。 













































































决策 树 


oy 





用 。 来 记 这 些 错 误 分 类 样 例 的 个 数 ， 我 们 试 着 通过 相对 频率 e/m 来 估计 一 个 样 例 
在 这 个 叶子 上 被 错误 分 类 的 概率 。 但 是 ， 承 认 小 的 m 值 可 能 导致 有 问题 的 估计 ， 
我 们 更 倾向 于 式 〈6.6) ， 这 里 N 是 训练 样 例 的 总 数 : 


_etl 
estimate T N +m 


细心 的 读者 可 能 会 想起 (或 重读 ) 2. 3 节 说 过 的 稀有 事件 的 概率 估计 的 困难 。 

对 整 棵 树 的 误差 估计 。 我 们 再 次 回 到 图 6.2。 左 边 的 树 有 两 棵 子 树 ， 一 棵 以 
为 根 结 点 ， 男 一 棵 以 i; 为 根 结 点 。 令 m, 和 ms 分 别 是 到 达 t。 和 ws 的 训练 样 例 数 ; 令 
E, 和 Es 是 由 式 (6.6) 得 到 的 两 棵 子 树 的 误差 估计 。 对 于 总 共 的 W = ms + ms 个 训 
练 样 例 ， 整 棵 树 的 错误 率 由 两 棵 子 树 的 加 权 平 均 佑 计 得 到 : 

















E 





(6.6) 


























Er= gE + NE (6.7) 
当然 ， 在 多 于 两 棵 子 树 的 情况 下 ， 加 权 和 要 在 所 有 子 树 上 边 计算 。 这 应 该 没 


什么 大 的 困难 。 

对 于 E, 和 E; 的 值 ， 它 们 来 自 于 特定 子 树 的 错误 率 ， 而 这 些 也 是 来 自 于 子 树 的 
子 树 的 错误 率 ， 如 此 下 去 ， 沿 着 所 有 路 径 向 下 直到 最 底层 的 测试 。 误 差 估 计 过 程 
是 一 个 递归 的 工作 。 

假设 要 剪 枝 的 树 是 以 5 为 根 结 点 的 那个 ， 它 恰好 是 测试 结 点 已 的 两 个 子 结 点 
之 一 。 对 4 的 误差 估计 可 以 通过 及 Al, 的 另 一 个 子 结 点 (标记 为 正 类 的 叶 结 点 ) 
的 误差 估计 的 加 权 平 均 来 计算 。 然 后 ,得 到 的 估计 会 与 上 面 所 示 的 E; 进 行 组 合 。 

后 剪 枝 。 这 个 术语 是 指 决策 树 在 它 完全 从 数据 中 归纳 学 习 到 之 后 再 进行 剪 枝 
的 情况 〈 另 一 个 方法 是 下 一 部 分 介绍 的 主题 ) 。 我 们 已 经 知道 ， 本质 上 就 是 将 一 
棵 子 树 用 一 片 标记 为 到 达 这 片 叶子 的 训练 样 例 中 出 现 最 多 的 类 别 的 叶子 来 代替 。 
因为 经 党 有 几 棵 (或 许多 ) 子 树 可 以 被 代替 ， 所 以 必须 做 出 一 个 选择 ;而 一 个 选 
择 的 存在 意味 着 我 们 需要 一 个 准则 来 引导 我 们 的 决定 。 

这 里 是 一 种 可 能 性 。 我 们 知道 ， 剪 枝 有 可 能 会 改变 分 类 器 的 性 能 。 一 种 评估 
这 种 改变 的 方法 就 是 比较 剪 枝 之 后 和 之 前 决策 树 的 误差 估计 : 

D = E sner 7 E petore (6.8) 
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我 们 从 可 用 的 前 校 备 选 方案 中 选择 差 值 D,,, 最 小 的 那个 ,但 是 仅 当 D,,, <c 时 
才 进 行 剪 校 ， 这 里 c 是 一 个 用 户 设 定 的 闷 值 ， 它 说 明 为 了 换取 树 的 紧 致 性 有 多 少 
性 能 下 降 是 可 以 忍受 的 。 然 后 ,重复 这 个 机 制 ， 决 策 树 随 之 变 得 越 来 越 小 ,终止 
条 件 也 随 之 通过 常数 c 得 到 加 强 。 这 样 ， 在 图 6.2 中 ， 第 一 个 剪 校 步 又 可 能 会 移 
除 以 为 根 结 点 的 子 树 。 第 二 步 ， 以 i 为 根 结 点 的 子 树 。 这 里 ， 过 程 终 止 ， 因 为 任 
何 进一步 地 尝试 剪 枝 都 会 导致 产生 误差 估计 增长 太 大 的 一 棵 树 ， 最 后 的 〈 剪 枝 后 
的 ) 树 的 误差 估计 与 图 6. 2 左 侧 原来 的 树 的 误差 佑 计 的 差 值 超过 了 用 户 的 阔 值 ， 
BY D >c, 

#26. 8 中 的 伪 代 码 总 结 了 这 个 准则 。 





























表 6.8 决策 树 剪 枝 算法 
个 用 户 设 定 的 常数 . 
估计 原始 决策 树 的 错误 率 ， 记 为 El, o 
估计 通过 剪 校 原始 树 的 各 种 备 选 方 法 得 到 树 的 错误 率 。 
.找到 剪 梳 之 后 估计 的 错误 率 ， 增 加 最 小 的 剪 校 ， 即 找到 D,。= Bi, -Eus OOM 
D, < ce 时， 选择 这 个 剪 枝 。 
4. REE na -Epe <c， 重 复 步骤 2 和 3。 
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在 线 剪 枝 。 在 分 而 治之 过 程 中 ， 每 一 个 后 续 属 性 都 将 训练 样 例 集 划分 成 越 来 
越 小 的 子 集 。 不 可 避免 地 ， 在 树 的 较 低层 支持 测试 的 选择 的 证 据 是 微弱 的 。 例 如 ， 
当 仅 有 两 个 训练 样 例 (一 个 正 例 和 一 个 负 例 ) 到 达 一 个 树 结 点 时 ， 一 个 完全 无 关 
的 属性 可 能 仅 靠 巧 合成 功 将 正 例 和 负 例 分 割 开 。 从 添加 这 个 测试 到 决策 树 所 得 至 
的 “好 处 ”仅仅 是 对 训练 集 的 过 拟 合 。 

在 线 剪 校 的 动机 就 是 要 确定 防止 这 种 情况 发 生 。 这 里 的 准则 是 : 如 果 训 练 子 
集 小 于 一 个 用 户 设 定 的 最 小 值 m， 则 停止 树 的 进一步 扩展 。 

剪 枝 的 影响 。 剪 校 到 什么 时 候 由 两 个 参数 控制 后 剪 枝 中 的 c 和 在 线 剪 枝 中 
的 普 。 这 两 种 情况 下 ， 都 是 参数 的 值 越 大 树 越 小 。 

剪 枝 会 增强 决策 树 在 未 来 样 例 上 的 分 类 性 能 ， 主 要 原因 是 低层 测试 有 较 差 的 
统计 支持 ， 移 除 这 些 低层 测试 通常 会 减 小 过 拟 合 的 危险 。 但 是 ， 这 仅 在 一 定 程 度 
上 适用 。 如 果 过 分 地 剪 梳 (极端 情况 下 )， 则 会 导致 决策 树 被 一 个 标记 为 多 少 类 
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图 6. 3 展示 了 逐渐 增加 的 剪 校对 分 类 性 能 的 影响 。 横 轴 画 出 了 由 或 m 或 它 
们 两 者 控制 的 剪 校 的 程度 ; 纵 轴 代表 了 在 训练 集 和 一 个 构造 的 测试 集 上 测 得 的 错 
误 率 〈 后 者 包含 了 在 学 习 中 没有 用 到 ， 但 是 其 类 别 标号 已 知 的 样 例 ) 。 
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463 随 着 剪 枝 程度 的 增加 ， 测 试 集 上 的 错误 率 一 般 是 先 降低 然后 再 开 
始 上 升 ; 训练 集 上 的 错误 率 一 般 是 单调 地 增加 








在 训练 集 的 曲线 上 ， 当 没有 剪 枝 的 时 候 错 误 率 最 低 。 但 是 ， 更 加 有 趣 的 是 测 
试 集 的 曲线 。 它 的 形状 告诉 我 们 ， 没 有 剪 枝 的 树 在 测试 数据 上 往往 得 分 很 低 ， 这 
可 以 通过 没有 剪 术 的 树 趋向 于 过 拟 合 训练 集 得 到 解释 ， 这 种 现象 可 以 通过 增加 前 
枝 的 程度 来 减少 。 然 而 ， 过 多 的 剪 校 会 将 确实 承载 了 有 用 信息 的 属性 测试 移 除 ， 
而 这 对 于 分 类 性 能 有 着 不 利 的 影响 。 

顺便 说 一 下 ， 关 于 潜在 的 数据 ， 这 两 条 曲线 可 以 告诉 我 们 很 多 信息 。 在 一 些 
应 用 中 ， 即 使 很 小 的 剪 梳 都 会 损害 测试 数据 上 的 错误 率 ， 例 如 ， 一 个 没有 噪声 的 
域 中 的 一 个 相对 较 小 的 训练 集 。 

另 一 个 需要 注意 的 事情 是 ,测试 集 上 的 错误 率 几 乎 总 是 大 于 训练 集 上 的 错 





























fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 


。 决策 树 剪 枝 有 哪些 潜在 的 好 处 ? 
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。 我 们 如 何 估计 树 在 未 来 数据 上 的 错误 率 ? 写 出 公式 并 解释 如 何 使 用 它 。 

。 描述 后 剪 枝 和 在 线 剪 枝 的 原理 。 

© 什么 参数 控制 了 剪 枝 的 程度 ? 它们 如 何 影响 在 训练 集 上 的 错误 率 ? 如 何 影 
响 在 测试 集 上 的 错误 率 ? 


6.6 将 决策 树 转换 为 规则 





相 比 于 其 他 分 类 器 ， 决 策 树 的 一 个 优势 就 是 它 的 可 解释 性 。 任 何 序列 的 沿 着 
从 根 结 点 到 一 片 叶 子 的 路 径 的 测试 都 代表 了 一 个 让 -then 规则 ， 而 且 这 个 规则 解 
释 了 为 什么 分 类 器 将 一 个 给 定 的 样 例 标记 为 这 个 或 那个 类 别 。 

由 决策 树 产生 的 规则 。 读 者 会 发 现 可 以 很 容易 地 将 一 棵 决策 树 转换 为 一 个 规 
则 的 集合 。 注 意 怎样 通过 一 系列 边 到 达 一 片 叶子 就 足够 了 ， 这 里 边 的 特定 选择 决 
定 于 沿 着 这 条 路 径 遇 到 的 属性 测试 的 结果 。 因 此 ， 每 片 叶子 都 与 一 个 具体 的 测试 
结果 的 发 生 相 关联 。 

为 了 清楚 地 说 明 ， 我 们 写 出 对 应 于 图 6. 1a 中 决策 树 得 到 正 类 (pos) 的 完整 
的 规则 集合 : 

1. 如 果 外 壳 大 小 是 大 的 (crust - size = big) 且 馅 料 的 量 是 大 的 (filling - size 
=big) ， 那 么 属于 正 类 (pos), 

2. 如 果 外 壳 大 小 是 大 的 (crust - size = big) ， 馅 料 的 量 是 小 的 (filling - size = 
big) 且 形 状 是 圆 形 的 (shape = circle) ， 那 么 属于 正 类 (pos), 

3. 如 果 外 壳 大 小 是 小 的 (crust - size = small) 且 形 状 是 圆 形 的 (shape = 
circle) ， 那 么 属于 正 类 (pos), 

4. 如 果 外 壳 大 小 是 小 的 (crust - size = small) ， 形 状 是 正方 形 的 或 三 角形 的 
(shape = circle OR triangle) 且 馅 料 的 量 是 大 的 (filling - size = big) ， 那 么 属于 正 类 













































































(pos) 。 

5. FUMIE RA (neg). 

注意 最 后 一 行 的 默认 类 : NX (neg) 。 如 果 所 有 规则 都 失败 了 ， 则 一 个 样 例 
就 会 被 标注 为 默认 类 。 这 意味 着 规则 的 让 部 分 的 值 为 假 (false) 。 我 们 注意 到 ， 在 











二 类 域 ， 我 们 仅 需要 考虑 导致 正 类 (pos) 的 规则 ， 其 他 类 就 是 默认 选项 。 我 们 也 
可 以 用 另外 一 个 方式 来 做 ， 仅 考虑 负 类 的 规则 ， 使 得 正 类 (pos) 成 为 默认 类 。 这 
实际 上 更 加 经 济 ， 因 为 仅 有 两 片 叶子 被 标注 为 负 类 ， 因 此 仅 有 两 条 对 应 的 规则 。 
鼓励 读者 通过 简单 的 练习 写 出 这 两 条 规则 。 

无 论 如 何 ， 教 训 是 清楚 的 : 有 天 个 类 的 一 个 域 中 ， 仅 需要 天 -1 个 类 的 规则 ， 
最 后 一 个 类 作为 默认 类 即 可 。 

修剪 规则 。 之 前 描述 的 树 的 后 剪 枝 机 制 将 一 棵 子 树 代 替 为 一 片 叶子 。 这 意味 
着 稍 低层 的 测试 是 先 被 剪 村 的 ， 剪 枝 不 会 让 稍 高 层 结 点 的 移 除 早 于 它 下 边 的 结 点 
的 移 除 。 在 线 剪 枝 也 存在 类 似 的 情况 。 

然而 ， 一 旦 树 被 转换 为 规则 ， 剪 校 就 获得 了 灵活 性 : 任何 规则 的 六 部 分 的 任 
何 测试 都 是 要 移 除 的 淤 在 候选 项 ; 整个 规则 都 可 以 被 移 除 。 通 过 表 6.9 中 的 伪 代 
码 所 总 结 的 规则 修剪 算法 可 以 实现 这 些 ， 表 6. 10 通过 一 个 例子 描述 了 规则 修剪 算 
法 。 这 里 ， 初 始 的 规则 集 由 图 6. 2 左边 部 分 的 (现在 已 经 熟悉 了 的 ) 树 得 到 。 第 
一 个 修剪 步骤 移 去 了 那些 看 起 来 对 整体 分 类 性 能 贡献 不 多 的 测试 ; 下 一 步 删 除了 
最 弱 的 规则 。 

但 是 ,我们 得 赶紧 承认 ， 这 加 入 的 灵活 性 的 代价 就 是 计算 成 本 的 显著 增加 。 












































表 6.9 规则 修剪 算法 


将 决策 树 重 写 为 一 个 规则 集 。 

令 c 是 一 个 用 户 设 定 的 用 来 控制 修剪 程度 的 常数 。 

在 每 条 规则 中 ， 计 算 移 除 各 个 测试 所 带 来 的 误差 估计 的 增加 。 

. 选择 出 误差 估计 增加 (Dan) 最 小 的 移 除 。 仅 当 D <c 时 ， 移 除 测 试 。 
.在 规则 集中 ， 搜 索要 移 除 的 最 弱 规 则 。 

. 选择 出 默认 类 别 。 
.按照 规则 的 强度 (覆盖 多 少 训练 样 例 ) 对 其 进行 排序 。 
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6.10 ARAMEA A 


假设 图 6. 2 左边 部 分 的 决策 树 已 经 被 转换 为 了 如 下 的 规则 集 〈 当 所 有 规则 的 让 部 分 都 
为 假 (false), neg 是 所 用 的 默认 标号 ) 。 
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(2) 























ti At 一 pos 
t, At, At, At, 一 pos 
mt, At; Ate —pos 
H 他 neg 

假设 对 规则 中 测试 的 订 吉 论 是 第 二 


F 估 得 出 的 乡 





H E xe Ha — 


个 规则 的 和 第 三 个 规则 中 的 i 的 移 除 不 


会 较 大 地 增加 误差 估计 。 我 们 得 到 如 下 的 修改 的 规则 集 。 

















—pos 
—pos 


—pos 




















二 个 (已 经 修改 的 ) 规则 可 以 移 除 而 不 会 有 较 大 的 误差 估计 增加 。 移 








—pos 


—pos 








ti At, 
t, At, At, 
—t, Nt, 
其 他 neg 
下 一 步 揭示 出 第 
除 之 后 ， 规 则 集 如 下 。 
ti At 
—t, Nt, 
其 他 neg 
至 此 完成 了 修剪 。 
人 
Li 你 学 到 了 什么 ? 
一 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 解释 将 决策 树 转换 为 一 个 规则 集 的 机 制 。 会 得 到 多 少 条 规则 ? 这 种 转换 背 





后 的 动机 是 什么 ? 


。 默认 类 这 个 词 是 什么 意思 ? © 


。 讨论 规则 修剪 的 可 能 性 。 从 人 


怎样 将 它 选 出 来 ? 
么 意义 上 ， 我 们 可 以 声称 规则 修剪 比 决 


策 树 剪 枝 提供 了 更 大 的 灵活 性 ? 为 了 这 增加 的 灵活 性 需要 付出 什么 





代 


价 ? 


6. 7 





决策 树 


oy 


总 结 和 历史 简 评 





在 决策 树 中 ， 每 次 对 一 个 属性 值 进 行 测试 ， 每 次 测试 的 结果 指示 出 了 下 一 
步 应 该 发 生 什么 : 或 者 是 另 一 个 属性 测试 ， 或 者 如 果 到 达 了 一 片 叶子 ， 就 
决定 类 别 标号 。 可 以 说 决策 树 包 含 了 一 些 部 分 有 序 的 测试 的 集合 ， 每 个 序 
列 的 测试 定义 了 以 一 片 叶子 终结 的 树 校 。 

从 一 个 一 般 的 训练 集 ， 可 以 创建 出 许多 备用 的 决策 树 。 作 为 一 个 准则 ， 稍 
小 的 树 更 受 青睐 ， 它 们 的 主要 优势 有 可 解释 性 、 移 除 不 相关 的 和 多 余 的 属 
性 、 较 低 的 过 拟 合 带 噪 声 的 训练 数据 的 危险 。 

从 数据 中 归纳 学 习 决 策 树 的 最 经 典 程 序 以 递归 的 方式 进行 ， 总 是 寻找 关于 
类 别 标号 承载 了 最 大 信息 量 的 属性 。 这 个 方法 趋向 于 使 得 归纳 学 习 到 的 决 
策 树 更 小 。“ 最 好 的 ”属性 是 利用 信息 论 中 的 简单 公式 找到 的 。 

决策 树 归 纳 学 习 的 一 个 重要 方面 是 剪 校 。 主 要 的 动机 是 为 了 确保 所 有 的 树 
枝 都 由 充分 的 证 据 所 支持 。 进 一 步 地 ， 剪 枝 降 低 了 树 的 规模 ， 这 是 有 一 定 
好 处 的 《参见 上 文 ) 。 存 在 两 种 通用 类 型 的 剪 枝 方法 : 中 后 剪 校 ， 首 先 构 
建 一 棵 完整 的 树 ， 然 后 进行 剪 枝 ; 外 在 线 剪 枝 〈 它 可 能 有 一 点 误 称 ) ， 一 
旦 用 来 决定 下 一 个 属性 测试 的 训练 子 集 变 得 太 小 了 就 停止 树 的 构建 。 在 这 
两 种 情况 下 ， 修 剪 的 程度 都 是 由 用 户 设 定 的 参数 (分 别 记 为 c Alm) RPE 
制 的 。 

一 棵 决策 树 可 以 被 转换 为 一 个 规则 集 ， 这 个 规则 集 可 以 被 进一步 修剪 。 在 
一 个 有 天 类 的 域 中 ， 指 定 天 -1 个 类 的 规则 就 足够 了 ， 剩 下 的 类 会 变 成 默 
认 类 。 规 则 往往 更 容易 解释 。 规 则 修剪 算法 有 时 会 导致 更 紧 致 的 分 类 需 ， 
尽管 会 显著 地 增加 计算 代价 。 



















































































历史 简 评 。 决 策 树 的 思想 首先 由 胡 沃 兰 德 (Hoveland) 和 哈 德 (Hund) 于 20 
世纪 50 年 代 晚 期 提出 。 他 们 的 工作 随后 在 哈 特 (Hunt)、 马 林 (Marin) 和 斯 




















iH (Stone) 的 书 中 得 到 了 总 结 ， 这 本 书 报道 了 若干 次 实施 作者 的 概念 学 习 系 统 


(Concept Learning System, CLS) 的 经 验 。 弗 里 德 曼 (Friedman )、 本 特 雷 
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(Bentley) 和 芬 克 尔 2 (Finkel) 独立 地 开发 了 一 个 类 似 的 方法 。 布雷 曼 ” 
( Breiman) 等 使 得 相关 研究 达到 了 一 个 早期 的 制高点 ， 他 们 的 研究 描述 了 CART 
AR. BX“ (Quinlan) 将 这 个 思想 引进 了 机 器 学 习 领 域 。 可 能 昆 兰 !9%1 
(Quinlan) 最 著名 的 实现 是 C4. 5。 本 章 就 是 基于 C4.5 的 一 个 简化 的 版 本 。 














6.8 -巩固 你 的 知识 

















下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 





练习 


1. 图 6.4 中 ， 有 8 个 由 两 个 属性 : 大 小 (size) 和 颜色 (color)， 描 述 的 训练 
样 例 ， 类 别 标 号 是 材料 : 或 者 是 木 制 的 (wood)， 或 者 是 塑料 的 
(plastic) 。 

1) 当 仅 考虑 类 别 标号 (忽略 属性 值 ) WHR, VAR AME TA? 

2) 使 用 6.3 节 中 的 基于 信息 的 机 制 ， 决 定 两 个 属性 中 的 哪个 更 好 地 预言 





























了 类 别 。 
木 制 的 塑料 的 
o 9 @ 
O © 
o 0 @ 














6.4 使 用 代表 木 制 的 和 塑料 的 圆圈 的 另 一 个 例子 


2. 移 除 图 6. la 中 决策 树 右 下 角 的 关于 馅 料 的 量 (filling - size) 的 测试 。 基 于 
表 6. 1 中 的 训练 集 ， 这 步 “ 剪 村 ”前 后 的 误差 估计 分 别 是 什么 样 的 ? 





决策 树 


oy 


3. 选择 图 6. 1 中 的 一 棵 决策 树 并 将 其 转换 为 一 个 规则 集 。 选 取 其 中 的 一 条 规 
则 ， 并 决定 移 除 哪 个 测试 估计 的 误差 会 有 最 小 的 增加 。 

4. 考虑 10 个 训练 样 例 的 一 个 集合 。 假 设 一 个 连续 属性 有 如 下 值 : 3.6, 3.2, 
1.2, 4.0, 0.8, 1.2, 2.8, 2.4, 2.2, 1.0, 假设 这 些 样 例 中 的 前 5 个 和 
最 后 一 个 是 正 例 ， 其 他 的 样 例 都 是 负 例 。 这 个 属性 值 范围 的 最 优 二 值 划分 


是 什么 ? 



































1. 评估 决策 树 所 用 的 基准 性 能 准则 是 错误 率 和 树 的 规模 〈 结 点 数 ) 。 但 是 ， 
在 某 些 领域 ， 这 些 可 能 并 不 合适 。 指 出 或 者 决策 树 的 规模 或 者 它 的 错误 率 
可 能 并 不 重要 的 领域 。 提 示 ， 考 虑 错误 决策 的 代价 和 获得 属性 值 的 代价 。 

2. 一 个 领域 的 什么 可 能 的 特点 会 使 得 决策 树 的 表现 明显 好 于 作为 基准 的 最 近 
邻 分 类 器 ? 提示 ， 考 虑 噪声 、 不 相关 属性 或 训练 集 的 大 小 等 特点 ; 然后 自 
己 决 定 它 们 中 的 每 一 个 会 对 分 类 融 的 表现 可 能 有 怎样 的 影响 。 

3. 在 什么 样 的 数据 上 ， 线 性 分 类 需 可 能 会 比 决策 树 做 得 更 好 ? 给 出 至 少 两 个 
刻画 这 种 属性 的 特征 。 可 以 基于 前 一 个 问题 中 的 一 些 提示 。 

4. 找到 了 前 面 两 个 问题 的 答案 ， 你 应 该 可 以 得 出 逻辑 上 的 结论 : 将 决策 树 归 
纳 学 习 和 线性 分 类 器 归 纳 学 习 应 用 于 给 定数 据 ， 它 们 的 表现 会 暴露 出 数据 
的 什么 特征 ? 

5. 这 一 章 摘 述 的 决策 树 关 于 给 定 样 例 的 类 别 仪 能 给 出 “脆弱 的 ”是 或 不 是 
(yes-or-no) 的 决定 〈 从 这 个 意义 上 ， 有 人 会 争辩 ， 贝 叶 斯 分 类 器 或 多 层 
感知 机 是 更 加 灵活 的 ) 。 利 用 缓解 这 个 弱点 的 方式 ， 建 议 一 种 机 制 来 修改 
决策 树 框 架 ， 使 其 对 于 每 个 样 例 不 仅 给 出 类 别 标号 ， 而 且 给 出 分 类 屁 对 这 


个 类 别 标号 的 置信 和 度 。 



































上 机 实验 


L 实现 决策 树 归纳 学 习 的 基准 算法 ， 并 在 UCL 库 (www. ies, uci. edu/ ~ 
mlearn/MLRepository. html) 中 一 些 选择 的 域 上 测试 它 的 性 能 。 对 比 所 得 至 
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的 结果 与 近邻 分 类 器 得 到 的 结果 。 

2. 实现 本 章 描 述 的 一 个 简单 的 剪 枝 机 制 。 从 UCI 库 中 选择 一 个 数据 文件 并 运 
行 ， 使 用 并 观察 剪 枝 的 不 同 程度 怎样 影响 训练 和 测试 集 上 的 错误 率 。 

3. 从 UCI 库 中 选择 一 个 充分 大 的 域 ， 保 留 30% 的 样 例 用 来 测试 ， 分 别 用 剩 下 
的 10% ，…，709% 的 样 例 做 训练 。 面 出 一 张 图 ， 横 轴 给 出 了 样 例 数 ， 纵 轴 
给 出 了 归纳 学 习 所 花费 的 计算 时 间 。 画 出 另 一 张 图 ， 纵 轴 给 出 在 测试 集 上 


的 错误 率 。 讨 论 这 些 得 到 的 结果 。 
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众所周知 ， 对 于 学 习 而 言 一 个 完备 的 理论 是 极其 重要 的 。 事 实 上 可 学 习性 强 
的 数学 模型 有 助 于 我 们 更 好 地 理解 如 何 根据 数据 选择 好 的 分 类 器 。 相 反 地 ， 对 于 
那些 学 习 能 力 较 弱 的 模型 ， 得 到 的 结果 往往 是 令 人 失望 的 。 尽 管 本 书 一 直 想 避免 
过 度数 学 化 ， 但 是 我 们 必须 介绍 一 下 计算 学 习 理 论 的 基本 概念 。 

计算 学 习 理 论 的 核心 是 PAC 学 习 ，PAC 学 习 的 提出 使 得 量化 学 习 能 力 成 为 可 
能 。 本 章 的 第 一 他 将 介绍 PAC 学 习 在 离散 化 属性 数据 域 中 的 应 用 ， 并 推导 出 数据 
集 规 模 与 分 类 融 错 误 率 的 简单 关系 。 紧 接着 的 两 攻 ， 将 简单 地 讨论 一 下 相应 的 公 
式 。 对 于 属性 值 连续 的 数据 域 ， 我 们 将 介绍 VC 维 的 概念 。 









































7.1 PAC 学 习 





对 于 机 带 学 习 ， 计 算 学 习 理 论 中 最 具有 价值 可 能 便 是 “可 能 近似 学 习 ”， 有 
时 也 简称 PAC 学 习 。 首 先 ， 让 我 们 来 解释 下 相关 的 基本 原则 ， 然 后 对 公式 进行 推 
导 ， 总 结 一 些 实践 建议 。 

假设 与 定义 。 为 了 简化 分 析 过 程 ， 一 些 假设 条 件 是 非常 有 必要 的 。 首 先 ， 训 
练 样本 以 及 测试 样本 都 是 完全 无 噪声 数据 ; 其 次 ， 所 有 属性 都 是 离散 的 ; 然后 ， 
以 属性 值 的 逻辑 表达 式 构 建 分 类 器 ， 正 样本 的 逻辑 值 为 真 ， 负 样本 为 假 ; 最 后 ， 
至 少 存在 一 个 逻辑 表达 式 能 够 对 所 有 样本 进行 正确 分 类 ” 。 

每 个 逻辑 表达 式 ， 都 可 以 看 作对 分 类 需 的 一 个 假设 。 所 有 的 假设 构成 一 个 假 
设 空 间 互 ， 假 设 空间 的 大 小 〈 不 同 的 假设 的 数量 ) 以 | | 表示 。 假 如 对 假设 空间 
没有 特别 声明 ， 我 们 默认 | 五 | 为 有 限 值 。 

不 够 精确 的 分 类 器 仍 可 能 在 训练 样本 中 取得 成 功 。 训 练 样本 一 般 很 少 容 括 类 
别 所 有 的 细微 之 处 。 尽 管 一 个 分 类 需 在 训练 样本 中 能 够 正确 预测 所 有 类 标 ， 但 仍 
然 可 能 在 测试 阶段 取得 很 差 的 预测 结果 。 随 着 我 们 增加 训练 样本 ,测试 阶段 预测 
出 错 的 频率 一 般 也 随 之 降低 ， 这 是 因为 这 些 增加 的 样本 很 可 能 反映 了 原始 样本 缺 






































〇 读者 注意 到 第 1 章 介绍 的 “ 派 ”数据 域 都 满足 这 些 要 求 。 
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少 的 样本 分 布 。 在 机 顺 学 习 领 域 ， 有 一 条 简单 的 经 验 法 则 : 训练 样本 越 多 ， 学 习 
到 的 分 类 天 分 类 效果 越 好 。 

在 测试 阶段 成 功 地 预测 样本 的 类 标 需 要 多 少 训练 样本 呢 ? 为 了 找到 答案 ,我 
们 首先 考虑 这 样 一 个 分 类 锅 ， 其 中 该 分 类 需 在 整个 样本 空间 的 错误 率 大 于 预定 义 
的 阔 值 。 换 句 话 说， 分 类 需 能 够 正确 预测 一 个 随机 样本 的 概率 小 于 1 -e WEK 
虑 有 普 个 随机 样本 的 情况 ， 此 时 分 类 需 能 正确 预测 这 m 个 随机 样本 的 概率 满足 如 
下 不 等 式 : 





p<(1-e)” (7.1) 

该 不 等 式 意味 着 : 一 个 包含 m 个 样本 的 训练 集 够 被 一 个 错误 率 大 于 的 分 类 
带 完 全 分 类 正确 的 概率 是 p< (1 -e)"。 当 然 在 实际 情况 中 ， 这 个 概率 是 很 低 的 。 
例如 ， 如 果 s=0.1, m=20， 此 时 概率 p<0.122。 假如 我 们 增加 训练 样本 数 到 100 
(保持 分 类 器 的 错误 率 下 界 e=0. 1 不 变 ) ， 概 率 p 减少 至 10“ 以 下 。 这 确实 已 经 很 
小 ， 但 是 小 概率 并 不 等 价 于 不 可 能 。 

去 除 弱 分 类 器 。 假 定 错误 率 大 于 e 的 分 类 器 被 认为 是 不 可 接受 的 。 那 么 这 些 
从 训练 集 推 导出 性 能 较 差 的 分 类 器 ， 能 够 对 整个 训练 集 进行 正确 分 类 的 机 会 有 多 
大 呢 ? 

对 于 包含 | | 个 分 类 器 的 假设 空间 A, PE I EE m 个 训练 样本 中 评估 
每 个 分 类 器 的 理论 可 能 性 ， 并 且 保 留 那 些 没有 分 类 出 错 的 分 类 器 。 在 这 些 “ 孝 存 
E” P, 令 人 遗憾 的 是 ， 有 一 些 分 类 融 在 训练 样本 中 是 零 错 误 率 ， 然 而 在 整个 样 
本 空间 中 错误 率 实 际 上 超过 了 e。 假设 这 种 分 类 咒 的 个 数 为 上 。 

如 何 确定 的 值 ? 我 们 可 以 在 整个 实例 空间 依次 测试 每 个 分 类 器 。 然 而 在 实 
际 过 程 中 ， 这 很 不 现实 。 我 们 唯一 能 确定 的 并 < | |， 幸 运 的 是 ， 在 实际 中 || 或 
已 知 或 者 能 够 计算 出 来 2 。 

这 里 ,我们 重新 定义 概率 PP 为 在 这 上 个 分 类 融 中 至 少 有 一 个 分 类 器 在 m 个 训 
练 样本 中 取得 零 错误 的 概率 。 此 时 PP 的 上 界 满足 如 下 不 等 式 : 





















































O 回顾 下 第 1 章 的 “ 派 ”分 类 问题 ， 则 假设 空间 大 小 | 五 |=2108， 其 中 296 个 分 类 器 


能 在 训练 集中 实现 正确 分 类 。 
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psk(1-e)"< |H|(1-6)" (7.2) 
通过 上 式 ， 我 们 为 在 排除 所 有 错误 率 超过 e 的 分 类 器 之 后 ， 分 类 器 在 m 个 训 
练 样本 中 能 够 成 功 正确 分 类 概率 定义 了 一 个 上 界 。 
方便 起 见 ， 对 式 (7.2) 进行 相应 的 修改 。 数 学 家 都 知道 1 -e <e“， 意 味 着 
(1 -e)”<e “。 进 行 指数 变化 后 ,， P 的 上 界 如 下 : 








ps |H|e"™ (7.3) 
假定 我 们 希望 这 个 概率 低 于 某 些 用 户 自己 设置 的 阔 值 5. 
|H |e" <6 (7.4) 





对 式 (7.4) 左右 两 边 取 对 数 ， 并 进行 重新 排列 ， 得 到 式 (7.5)， 具 体 将 在 
下 面 的 部 分 进行 讲解 。 











m> 二 (mm 到) (7.5) 





“可 能 近似 正确 ”学 习 。 我 们 对 推导 过 程 进行 详细 的 讲解 ， 主 要 还 是 帮助 读 
者 能 更 好 地 理解 其 中 一 些 容易 被 混淆 的 变量 的 具体 含义 。 为 此 ,我 们 特意 在 表 
7.1 中 总 结 了 涉及 的 变量 ， 方 便 读 者 快速 浏览 。 


表 7.1 PAC 可 学 习性 中 使 用 的 变量 





























m e 训练 样本 数目 

|H | a 假设 空间 大 小 

e E 分 类 器 错误 率 上 限 

6 z 分 类 器 在 一 定 错误 率 下 可 训练 的 概率 
大 于 e 被 认为 在 训练 集 上 是 error-free 的 


现在 ， 我 们 已 经 具备 定义 一 些 重 要 概念 的 条 件 。 一 个 错误 率 低 于 e 的 分 类 需 
可 以 被 认为 是 近似 正确 的 。6 定义 为 近似 正确 的 分 类 天 能 够 由 普 个 训练 样本 推导 
出 来 的 概率 (m 为 有 限 值 )。 因 此 ， 完 整 的 概念 为 可 能 近似 正确 学 习 ， 简 称 为 
PAC 学 习 。 在 本 章 中 ， 我 们 一 般 称 一 个 类 不 具有 PAC 学 习 能 力 ， 意 味 着 没有 足够 
多 的 训练 样本 能 够 满足 (e, 8) WERK, 或 者 尽管 有 足够 多 的 样本 ,训练 分 类 絮 
所 花 的 时 间 却 遥遥 无 期 。 

解释 。 式 (7.5) 意味 着 ， 要 想 以 不 低 于 6 的 概率 获得 错误 率 低 于 e 的 分 类 























器 ， 我 们 至 少 需要 m 个 训练 样本 。 这 个 结论 并 不 
术 ， 仅 仅 依赖 于 分 类 天 假设 空间 ee. 
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取决 于 你 使 用 哪 种 机 带 学 习 技 





特别 注意 ， mm 与 二 呈 线 性 增长 关系 。 例 如 ， 我 们 加 强 分 类 器 的 错误 率 约 束 ， 


把 e=0.2 调 低 到 0.1， 仍 要 求 以 相同 的 概率 6 获取 分 类 需 ， 此 时 我 们 需要 先前 两 
倍 的 样本 数量 。 同 时 ， 读 者 也 应 该 留意 到 对 于 5 的 变化 m 是 比较 不 敏感 的 ， 只 是 





ST 呈 对 数 增长 关系 。 





然而 ， 我 们 千 万 不 要 忘记 这 里 的 推导 过 程 是 基于 最 坏 的 打算 。 因 此 ， 对 于 完 








美 主义 者 来 说 ， 这 里 的 上 界 是 不 够 紧 致 的 。 例 如 ， 在 推 





导 过 程 中 ， 人 允许 存在 


8= | 三 | 的 可 能 性 ， 在 大 多 数 实际 应 用 中 ， 这 过 于 悲观 了 。 式 (7.5) 不 应 该 这 样 
理解 : 告知 技术 员 到 底 需 要 多 少 训练 样本 。 倒 不 如 说 是 用 于 比较 分 类 天 学 习 能 
的 一 条 准则 。 在 下 一 节 中 ， 我 们 将 继续 探讨 这 个 概念 





P 
fi 你 学 到 了 什么 ? 





为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 





有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 式 (7.5) 中 4 个 变量 的 具体 含义 是 什么 ? 








© PAC 学 习 的 概念 是 什么 ? 在 什么 情况 下 ， 可 以 称 一 


力 ? 


个 类 不 具有 PAC 学 习 能 


。 对 式 (7.5) 进行 推导 。 讨 论 这 个 结果 的 含义 以 及 实践 意义 并 解释 为 什么 





它 可 以 视 为 最 坏 情况 分 析 ? 


7.2 PAC 可 学 习性 的 实例 





式 (7.5) 告诉 我 们 在 给 定 e 和 8 的 情况 下 ， 模 型 的 可 学 习 能 力 仅仅 依赖 于 假 





设 空 间 的 大 小 。 接 下 来 我 们 将 以 一 两 种 具体 的 分 类 器 为 例 进行 讲解 。 


布尔 型 属性 的 合 取 : 假设 空间 。 假 定 所 有 的 属性 都 属于 布尔 型 ， 











而 且 所 有 数 
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据 都 是 无 噪声 的 ,我们 定义 样本 的 类 别 取 决 于 属性 的 逻辑 组 合 : 如 果 结 果 为 真 ， 
则 认为 样本 为 正 样本 ， 否 则 为 负 样本 。 例 如 ， 训 练 样本 的 预测 类 标 可 以 由 如 下 逻 
辑 表 达 式 决定 : 





attl = true AND att2 = false 














这 意味 着 一 个 样本 被 标记 为 正 样本 ， 则 必须 满足 属性 1 为 真 ， 属 性 2 为 假 ， 
属性 无 须 考虑 。 假 如 样本 不 同时 满足 这 两 个 条 件 ， 则 被 标记 为 负 样 本 。 

以 机 器 学 习 的 术语 来 说 ， 这 里 的 任务 就 是 找到 一 个 逻辑 与 表达 式 ， 能 够 对 训 
练 集 实现 正确 分 类 任务 。 此 时 ， 所 有 满足 我 们 定义 的 与 运算 构成 的 整个 假设 空间 
甩 有 多 大 呢 ? 

上 面 指定 的 逻辑 与 运算 中 ， 每 个 属性 或 为 真 或 为 假 ， 或 者 不 相干 。 这 使 得 属 
性 1 有 3 种 可 能 性 ， 属 性 2 也 有 3 种 可 能 性 ， 以 此 类 推 直到 最 后 一 个 属性 n。 因 
此 ， 假 设 空间 满足 |H |=3”。 

布尔 型 属性 的 合 取 : PAC 可 学 习性 。 假 设 有 一 个 无 噪声 的 训练 样本 集 可 以 用 
于 训练 符合 上 述 范式 的 分 类 器 ” 。 为 了 满足 在 7. 1 节 中 提 到 的 最 后 一 条 假设 条 件 ， 
我 们 认为 至 少 存在 一 个 与 运算 能 够 对 所 有 训练 样本 实现 正确 分 类 。 

因为 In | 瓦 |=ln3" =nln3， 由 式 (7.5) 可 得 : 





剩余 









































m> (nl +n] (7.6) 


通过 式 (7.6) 我 们 可 以 得 到 训练 样本 数目 的 一 个 相对 保守 的 下 界 ， 该 下 界 
满足 以 6 的 概率 使 得 训练 出 来 的 分 类 顺 在 整个 样本 空间 的 错误 率 不 超过 e。 需 要 注 
意 的 是 ， 训 练 样本 数量 m 与 属性 个 数 ” 呈 线 性 关系 。 理 论 上 来 讲 ， 保 持 e 与 6 值 
不 变 ， 如 果 属 性 数目 加 倍 ， 则 需要 的 训练 样本 也 需 加 倍 。 

任意 布尔 函数 : 假设 空间 。 让 我 们 拓展 上 述 分 类 需 至 任何 布尔 函数 ， 也 就 是 
现在 考虑 所 有 的 3 种 基础 逻辑 运算 (与 运算 、 或 运算 、 非 运算 ) 以 及 它们 之 间 的 
自由 组 合 。 当 然 ， 此 处 我 们 也 是 假定 所 有 样本 是 无 噪声 数据 且 包 含 了 个 布尔 型 



































O 例如 ,在 1.2 节 中 介绍 的 变种 卜 山 算法 便 可 以 处 理 这 种 情况 。 
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属性 。 那 么 此 时 假设 空间 又 是 多 大 呢 ? 

从 个 布尔 型 属性 ， 我 们 能 够 获得 2" 个 不 同 的 样本 。 这 定义 了 样本 空间 的 大 
小 。 对 于 样本 空间 中 的 任意 一 个 子 集 ， 至 少 存在 一 个 逻辑 函数 ， 使 得 该 子 集 内 部 
样本 的 逻辑 值 为 真 ， 该 子 集 外 部 样本 的 逻辑 值 为 假 。 从 分 类 角度 来 看 ， 假 如 两 个 
逻辑 函数 对 任意 一 个 样本 的 预测 结果 相同 ， 则 可 称 这 两 个 逻辑 函数 是 一 致 的 ， 
为 对 于 任意 样本 的 预测 意见 总 是 一 致 的 。 因 此 根据 逻辑 函数 对 样本 空间 的 划分 ， 
则 逻辑 函数 的 个 数 应 该 与 样本 空间 的 子 集 个 数 一 致 。 

我 们 都 知道 ， 对 于 一 个 包含 工 个 元 素 的 集合 拥有 2 个 子 集 。 因 为 我 们 指定 的 
样本 空间 包含 2” 个 样本 ， 则 样本 空间 的 子 集 个 数 为 2”， 同 时 这 也 是 我 们 假设 的 空 
间 大 小 。 



































|H |=27 (7.7) 
任意 布尔 函数 : PAC 可 学 习性 。 由 于 jn |H |= In2” =2'm2, st (7.5) 


i (7.8) 


WX (7.8) 我 们 可 以 得 到 以 下 结论 : 给 定 合适 的 e 和 5， 所 需 训 练 样本 数目 
的 下 界 与 属性 的 个 数 旦 指数 增长 关系 。 如 此 增长 速度 ， 在 实践 中 应 该 尽量 避免 。 
例如 ， 如 果 我 们 只 增加 一 个 属性 ， 则 In | | 值 加 信 ， 因 为 2"*'1n2 是 2"ln2 的 两 倍 。 
同 理 ， 假 如 我 们 增加 10 个 属性 ， 则 In | 二 | 至 少 增加 千 倍 。 综 上 所 述 ， 这 足够 使 我 
们 相信 这 种 形式 的 分 类 器 不 具有 PAC 可 学 习性 。 

友情 提示 。 我 们 必须 谨慎 使 用 结论 ， 盲 目地 生 搬 硬 套 并 不 可 取 。 例 如 ， 在 前 
面 推导 式 (7.5) 的 过 程 中 ,我 们 考虑 的 是 最 坏 的 情况 ， 因 此 得 到 的 下 界 约束 是 相 
对 保守 的 。 事 实 上 ， 在 实际 应 用 过 程 中 ， 要 想 获得 可 信赖 的 分 类 器 并 不 需要 那么 
多 样本 。 

在 工程 师 寻 找 恰当 的 学 习 技术 来 解决 问题 的 过 程 中 , 式 (7.5) 主要 的 贡献 
在 于 帮助 工程 师 比较 不 同 分 类 器 的 可 学 习性 。 例 如 ， 属 性 的 与 运算 作为 分 类 器 可 
以 从 适量 的 训练 样本 中 学 习 而 来 ， 而 任意 布尔 函数 作为 分 类 器 却 不 能 学 习 到 。 

一 些 其 他 推论 ， 我 们 将 在 7. 3 节 中 详细 介绍 。 
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FMF ENT TA? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
属性 的 与 运算 作为 分 类 器 ， 假 设 空间 有 多 大 ? 代入 式 (7.5) 中 结果 如 何 ? 
其 他 一 些 分 类 器 ， 你 能 求 得 假设 空间 的 大 小 吗 ? 


解释 一 般 形式 的 布尔 函数 为 什么 不 具有 PAC 可 学 习性 ? 








7.3 一 些 实践 和 理论 结果 


本 章 第 1 节 的 理论 分 析 为 学 习 任 务 以 及 线索 提供 了 更 广 的 视角 ， 具 有 不 可 忽 
视 的 意义 。 不 仅 这 些 作 为 智慧 结晶 被 理论 家 津津 乐 道 ， 作 为 实践 指导 更 是 令 工程 
师 欣 喜 耕 狂 。 现 在 让 我 们 来 快速 浏览 一 番 。 

偏好 与 可 学 习性 。 在 7. 2 节 中 我 们 将 分 类 器 约束 为 属性 的 与 运算 ， 并 探讨 其 
PAC 可 学 习性 ， 这 种 约束 称 之 为 特定 类 别 的 偏向 。 如 果 人 允许 某 些 属性 可 被 视 为 不 
相干 的 ， 则 我 们 可 计算 得 到 假设 空间 |H |=3”。 假 如 进一步 强化 偏好 :分 类 带 必 须 
考虑 所 有 属性 ， 则 假设 空间 减 小 至 |H |=2”"。 这 是 因为 此 时 每 个 属性 只 有 真 和 假 两 
种 可 能 ， 而 在 先前 情况 下 ， 人 允许 第 三 种 情况 (不 相干 ) 存在。 

这 里 还 存在 着 其 他 形式 的 偏好 约束 ， 有 些 约束 合 取 项 的 个 数 ， 有 些 偏爱 析 取 
项 ,或 者 预定 义 的 合 取 项 与 析 取 项 的 混合 模式 ,或 者 强加 其 他 约束 条 件 。 不 管 怎 
样 ， 在 我 们 的 讨论 中 ,不同 的 偏好 只 是 造成 假设 空间 大 小 不 一 样 而 已 。 正 如 我 们 
前 面 看 到 的 ， 假 设 空间 的 大 小 会 影响 可 学 习性 。 

没有 学 习 不 带 有 偏好 。 偏 好 无 处 不 在 ， 考 虑 任意 布尔 函数 ， 我 们 可 知 假设 空 
间 的 In || 与 属性 的 个 数 呈 指 数 增长 关系 ， 符 合 In |H |= 2"ln2 这 种 形式 的 一 般 不 
具有 PAC 可 学 习性 。 这 个 解释 非常 简单 ， 无 约束 的 假设 的 空间 太 过 庞大 ， 有 很 大 
的 可 能 性 出 现 这 种 情况 : 学 习 到 分 类 需 ， 在 训练 集 性 能 很 好 ， 而 在 测试 集中 性 能 
却 很 差 。 更 直 白 地 说 ， 学 习 到 的 分 类 器 不 可 信 。 

需要 注意 的 是 ， 在 机 器 学 习 之 旅 中 ， 工 程 师 只 有 给 假设 空间 添加 有 意义 的 偏 
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差 约束 才能 取得 成 功 。 偏 差 约 束 ， 理 所 当然 地 不 能 偏向 错误 的 方向 。 读 者 应 该 能 
回忆 起 ， 我 们 的 分 析 基 于 假设 空间 确实 包含 问题 解 ， 且 所 有 样本 是 无 噪声 的 等 前 
ERIO, 

奥 卡 姆 剃刀 定理 。 在 寻找 答案 的 旅途 上 ， 工 程 师 经 常会 面临 在 多 个 偏差 中 选 
择 的 问题 。 例 如 ， 我 们 可 以 定义 属性 的 合 取 形 式 来 学 习 分 类 器 ， 其 中 每 个 属性 都 
起 一 定 作 用 。 现 在 我 们 放宽 约束 条 件 ， 人 允许 有 些 属性 不 参与 合 取 。 在 前 一 种 情形 
中 ， 我 们 得 到 In | 及 |= nln2， 而 后 一 种 情形 是 In |H |= mln3 ， 显 然 有 更 大 的 假设 空 
间 。 此 时 ,我 们 有 两 种 正确 的 偏差 约束 ， 每 一 个 定义 了 不 同 大 小 的 假设 空间 。 哪 
个 偏差 约束 会 更 合适 呢 ? 

细心 的 读者 ， 我 想 此 时 心中 已 有 答案 。 由 式 (7.5) 可 知 ， 训 练 出 成 功 的 分 类 
器 所 需要 的 训练 样本 数 依赖 于 jn | 五 |。 对 于 给 定 的 e 和 5， 越 小 的 下 界 约 束 意味 着 
需要 更 少 的 训练 样本 。 选 择 那 些 假设 空间 较 小 的 偏差 约束 将 有 助 于 工程 师 解 决 
问题 。 

随便 说 一 下 ， 在 几 个 世纪 前 ， 科 学 家 们 已 经 开始 运用 与 之 类 似 的 准则 : 如 果 
对 于 同一 现象 有 两 种 不 同 的 假说 ， 我 们 应 该 采取 比较 简单 的 那 一 种 。 这 条 准则 也 
被 称 为 奥 卡 姆 剃刀 原理 。 这 条 准则 ， 是 以 一 名 神学 家 命名 的 。 神 学 家 奥 卡 姆 逝世 
于 14 世纪 ， 并 率先 提出 在 近 现 代 科 学 中 使 用 这 条 准则 。 这 里 使 用 剃刀 的 含义 是 ， 
当 制 订 假 设 时 我 们 最 好 剔除 多 余 的 信息 。 

在 机 器 学 习 领 域 ， 科 学 家 们 已 经 找到 证 明 这 条 准则 有 效 性 的 形式 化 方法 ， 甚 
至 能 够 量化 奥 卡 姆 剃刀 的 有 效 范围 ， 这 真是 个 伟大 的 成 就 。 

不 相干 与 宛 余 属性 。 现 在 我 们 以 7. 2 节 提 出 的 分 类 问题 为 例 ， 可 知 所 需 训练 
样本 数目 的 下 界 m 依赖 于 属性 的 个 数 w。 以 属性 合 取 为 分 类 器 ， 我 们 可 以 得 到 
In |H |=nln3; 给 定 合适 的 e 和 6， 所 需 训 练 样本 数 与 属性 个 数 呈 线性 增长 关系 。 

同 理 ， 我 们 能 总 结 出 另 一 个 观点 ， 不 相干 或 元 余 属 性 的 存在 会 影响 类 的 可 学 
习 能 力 。 属 性 数目 越 高 ， 也 就 是 n 越 高 ， 意 味 着 在 保持 e 和 8 不 变 的 情况 下 需要 
更 多 的 训练 样本 。 因 此 ， 当 我 们 如 果 有 机 会 剔除 没 那 么 有 效 的 属性 时 ， 最 好 还 是 



































































































































O 当 这 些 假设 条 件 不 满足 时 的 分 析 过 程 ， 远 远 超过 介绍 性 书籍 的 范围 。 
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去 掉 。 
这 些 考虑 也 正好 解释 了 ， 为 什么 当 只 有 很 少 部 分 属性 带 有 相关 信息 时 ， 我 们 
往往 很 难 学 到 好 的 分 类 融 ， 如 文本 分 类 就 是 个 很 好 的 例子 。 





fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 是 否 理解 了 “没有 一 个 学 习 不 存在 偏向 ”的 含义 ? 在 什么 情况 下 工程 师 添 
加 偏向 约束 可 能 会 影响 算法 的 训练 ? 
。 解释 奥 卡 姆 剃刀 原理 。 数 学 家 们 又 是 以 何 种 方式 来 支持 这 个 哲学 准则 的 ? 
eX (7.5) 揭露 了 不 相干 和 匈 余 属 性 有 哪些 作用 ? 











7.4 VC 维 与 可 学 习性 





目前 为 止 ， 我们 仅仅 考虑 了 假设 数量 是 有 限 的 数据 域 。 现 在 我 们 开始 考虑 假 
设 数量 为 无 限 的 情况 ， 这 在 实际 应 用 中 经 常 无 法 避免 ， 如 有 些 属性 值 是 连续 的 。 
在 这 种 假设 空间 为 无 限 空间 下 ， 比 较 两 类 分 类 顺 的 学 习 能 力 几 乎 是 无 法 实现 的 
任务 。 

我 想 读者 都 会 同意 分 类 需 之 间 的 灵活 性 都 是 有 一 定 差异 的 ， 如 某 些 分 类 需 
(多 项 式 ) 明显 比 一 些 分 类 器 〈 线 性 ) 更 加 灵活 。 那 么 灵活 性 是 否 也 影响 可 学 习 
性 呢 ? 确实 有 影响 。 让 我 们 快速 浏览 一 下 理论 学 家 在 这 种 情况 下 是 如 何 量化 可 学 
习性 的 。 

散 点 训练 集 。 现 在 考虑 在 二 维 空间 中 ， 存 在 着 如 图 7. 1a 所 示 的 3 个 数据 点 。 
我 们 可 以 看 到 无 论 以 何 种 方式 将 正 标签 和 负 标 签 分 配给 样本 ， 我 们 总 能 找到 一 个 
线性 分 类 器 成 功 地 分 开 两 类 。 此 时 我 们 称 这 个 样本 集 能 够 被 线性 分 类 器 “ 打 散 ”。 

然而 ， 如 果 3 个 数据 点 的 分 布 如 图 7. 1b 所 示 ， 则 不 能 被 线性 分 类 器 打 散 。 假 如 
我 们 标记 中 间 的 样本 为 正 样本 ,标记 剩余 的 两 个 点 为 负 样 本 ,显然 不 会 存在 线性 分 
类 器 能 够 成 功 区 分 两 类 。 换 言 之 ， 这 个 特别 的 数据 集合 不 能 被 线性 分 类 顺 打 散 。 
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a) b) 


图 7.1 在 分 图 a 中 包含 3 个 点 的 数据 能 够 被 线性 分 类 器 “ 打 
散 ”， 而 分 图 b 中 集合 不 能 被 打 散 ， 因 为 假如 中 间 的 数 
据点 与 剩余 的 数据 点 不 属于 同一 类 ， 则 线性 不 可 分 

给 定 一 个 数据 集 ， 不 同 的 分 类 器 具有 不 同 的 区 分 能 力 。 例 如 ， 抛 物 线 能 够 区 
分 如 图 7. 1b 所 示 共 线 的 3 个 数据 点 ， 对 于 拥有 4 个 数据 点 的 集合 ， 只 要 不 都 共 线 
则 都 能 被 区 分 。 对 于 其 他 分 类 器 ， 如 高 次 多 项 式 ， 能 够 区 分 任意 大 小 的 数据 集 。 

Vapnik-Chervonenkis 维 。Vapnik-Chervonenkis 维 简称 VC 维 。 分 类 器 的 VC 维 
就 是 它 能 打 散 或 区 分 的 最 大 样本 数目 。 

在 前 面 我 们 能 看 到 ， 在 二 维 空间 中 ， 线 性 分 类 器 不 能 打 散 共 线 的 3 个 数据 点 ， 
但 是 只 要 不 共 线 便 能 被 打 散 。 现 在 我 们 考虑 4 个 数据 点 ,不 管 怎样 排列 数据 点 位 
置 ， 我 们 都 能 找到 一 组 类 标 配 置 ， 使 得 数据 点 不 能 被 线性 分 类 器 完全 分 开 。 正 如 
定义 所 说 ,“ 能 打 散 的 最 大 样本 数目 ”， 我 们 能 推断 出 在 二 维 空间 中 线性 分 类 器 的 
VC 维 等 于 3。 

这 里 ， 有 一 点 需要 记 住 ，VC 维 的 值 反 映 和 量化 了 给 定 分 类 器 的 几何 属性 。 

连续 域 的 可 学 习性 。VC 维 的 概念 使 我 们 在 连续 域 中 研究 可 学 习性 成 为 可 能 。 
现在 让 我 们 来 介绍 一 条 经 过 稍微 修改 的 著名 定理 ， 并 省 略 了 以 下 不 相干 的 技术 : 

假设 分 类 器 的 VC 维 为 4， 并 是 假设 空间 五 为 有 限 空间 ， 如 果 目 标 类 与 某 些 假 
设 heH 一 致 ,， 且 样本 数目 m 满足 式 (7.9)， 则 将 获得 1 -6 的 置信 度 使 学 习 到 的 
分 类 器 错误 率 低 于 €, 


























2 8d 


ô’ € € Ca 


m=max(4 log 
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式 (7.9) 意味 着 m 的 下 界 为 = ise = 或 log l= 中 较 大 的 那个 值 。 对 于 这 个 


结果 ， 工 程 师 可 能 会 错误 地 理解 为 在 训练 样本 中 分 类 正确 的 分 类 器 就 是 值得 信赖 
的 ， 而 无 须 考虑 机 融 学 习 算 法 。 

POE, PAC 学 习 所 需 的 训练 样本 数 一 般 与 VC 维 呈 线性 增长 关系 。 
然而 ， 这 不 是 件 值得 开心 的 事 。 那 是 因为 ， 许 多 真实 分 类 器 的 VC 维度 往往 会 随 
着 属性 的 增加 而 迅速 变 得 很 大 ， 这 些 情形 我 们 将 在 下 文 详 细 介 绍 。 

VC 维 的 一 些 例子 。 我 们 在 表 7. 2 中 ， 列 举 了 一 些 线性 和 多 项 式 分 类 器 的 VC 
维 的 值 。 读 考 也 需要 对 分 类 器 复杂 度 与 可 学 习性 之 间 的 妥协 关系 好 好 思索 一 番 。 
因为 分 类 器 越 复 杂 ， 意 味 着 假设 空间 中 越 有 可 能 包含 了 正确 的 解 ， 同 时 过 于 复杂 
的 分 类 器 会 使 所 需 的 训练 样本 数 又 快速 增长 ， 以 至 于 我 们 根本 没有 能 力学 习 到 可 















































信赖 的 分 类 器 。 
表 7.2 一 些 假设 类 型 在 R" 中 的 VC 维 
假设 类 型 vc 
超 平 面 n+l 
超 球面 n+2 
一 次 方程 eee 
; 阶 多 项 起 人 











事实 确实 如 此 ， 在 高 次 多 项 式 的 情形 中 ， 我 们 对 训练 样本 的 数量 要 求 往往 是 
不 切合 实际 的 。 例 如 ， 一 个 二 次 多 项 式 在 100 维 的 样本 空间 中 ， 它 的 VC 维 可 以 由 
下 式 计 算 而 来 : 


102 - 10 
a 


1 
i =5151 





这 明显 比 线性 分 类 顺 大 得 多 ， 但 仍 处 于 可 接受 的 范围 。 不 管 #8 取 何 值 ， 
只 要 4 值 充 分 大 ， 则 式 (7.9) 中 的 第 一 项 总 是 会 小 于 第 二 项 。 
如 果 ， 我 们 增加 多 项 式 分 类 器 的 次 数 到 4， 此 时 分 类 需 的 VC 维 将 高 得 离谱 . 


_ 104 + 103 + 102 . 10 
~ 4-3-2-1 





d 1 _ 4598126 




















因此 ， 我 们 应 该 尽量 避免 使 用 高 阶 多 项 式 作为 分 类 器 。 此 外 ， 神 经 网 络 和 决 
策 树 被 认为 具有 更 少 开销 的 VC 维 ( 见 第 5 章 和 第 6 章 ) ， 这 正 是 为 什么 工程 师 如 
此 偏爱 他 们 的 原因 。 

友情 提示 。 与 式 (7.5) 一 样 ， 为 了 简化 分 析 过 程 ， 式 (7.9) 也 是 我 们 在 考 
虑 最 坏 的 情况 下 推导 出 来 的 。 当 然 对 于 这 条 结论 ， 我 们 不 能 只 是 简单 地 理解 为 ， 
在 实际 应 用 中 需要 多 少 样本 。 

非常 重要 的 是 ， 在 实际 应 用 中 样本 不 是 随意 标记 的 。 因 为 同一 类 的 样本 之 间 
总 是 存在 一 些 相似 性 ， 并 且 在 实例 空间 中 倾向 于 聚集 在 一 起 。 
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给 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 给 定 合适 的 & 和 86， 成 功 训练 所 需 的 样本 与 分 类 器 的 VC 维 呈 什么 关系 ? 
。 求 二 维 连 续 空间 中 ， 线 性 分 类 器 的 VC 维 是 多 少 ? 
e 以 到 元 了 次 多 项 式 作 为 分 类 器 ， 如 何 计算 VC 维 ? 如 何 理解 “多 项 式 分 类 
器 具有 很 高 的 VC 维 ， 反 而 不 适合 作为 分 类 器 ”? 





证 


7.5 总结 和 历史 简 评 


计算 学 习 理 论 为 了 训练 出 可 信赖 的 分 类 器 ， 对 训练 样本 数 提供 了 确切 的 条 
件 约束 。 样 本 约束 仅仅 依赖 于 两 个 参数 : 错误 率 阔 值 e， 以 及 普 个 样本 训 
练 出 低 于 错误 e 的 分 类 需 的 概率 6。 

如 果 样 本 属性 值 都 是 离散 的 ， 则 对 于 给 定 的 e 和 6， 用 以 成 功 训 练 出 分 类 
器 所 需 最 少 的 样本 数 由 假设 空间 的 大 小 | | 决定 。 计 算 公 式 如 下 : 























m> 二 (ml+n 读 ] (7. 10) 
€ ô 





如 果 样 本 有 些 属 性 值 是 连续 的 ， 则 对 于 给 定 的 es 和 6， 用 以 成 功 训练 出 分 
类 絮 所 需 最 少 的 样本 数 由 分 类 融 的 VC 维 决定 。 特 别 地 ， 如 果 我 们 以 4 代 
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表 VC 维 的 值 ， 则 所 需 训 练 样本 可 通过 式 (7. 11) 计算 . 


4 2 8d, 13 
m=max{ “log 5° clog 2} 





(7.11) 


式 (7.5) 和 式 (7.9) 都 是 在 最 坏 情况 下 推导 出 来 的 。 事 实 上 ， 相 对 小 一 
些 的 训练 集 已 经 足以 训练 出 优秀 的 分 类 器 。 这 些 公式 的 主要 好 处 还 是 方便 
大 家 比较 不 同 机 器 学 习 算 法 间 的 学 习 能 

历史 简 评 。PAC 学 习 的 主要 思想 由 瓦 利 亚 特 ”“] (Valiant) 提出 。 关 于 VC 维 
的 经 典 论 文 由 瓦 普 尼 克 (Vapnik) 和 泽 范 兰 杰 斯 "(Chervonenkis) 发 表 。 在 此 
基础 上 ， 瓦 普 尼克 '”) (Vapnik) 又 进行 了 更 细致 的 描述 。 运 用 VC 维 来 研究 可 学 
习性 ， 并 研究 奥 卡 姆 定理 ， 都 属于 布 鲁 默 5 (Blumer) 等 人 的 工作 。 随 后 更 加 紧 
致 的 边界 被 发 现 ， 如 哈 威 泰勒 (Hawe - Taylor) 、 安 东 尼 (Anthony) 和 比 格 斯 
(Biggs) 等 人 的 成 果 。 线 性 分 类 器 与 多 项 式 分 类 器 的 VC 维 能 够 由 科 弗 中 
(Cover) 的 成 果 推 导 而 来 。 读 者 要 是 有 兴趣 的 话 ， 可 以 阅读 科恩 斯 (Kearns) 和 
瓦 齐 拉 尼 '* (Vazirani) 的 名 著 ， 定 能 获 益 菲 浅 。 
















































































7.6 巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 








练习 








1. 假定 样本 空间 由 第 1 章 提 到 的 用 以 描述 “ 派 ” 的 属性 构成 。 如 果 以 属性 间 
的 合 取 为 分 类 絮 ， 假 设 空间 多 大 ? 现在 考虑 两 种 情况 ， 一 种 情况 允许 某 些 

属性 是 不 相干 的 ， 男 一 种 情况 是 所 有 属性 必须 包含 在 合 取 式 中 。 

2. 考虑 7.2 节 中 提 到 属性 为 布尔 型 的 合 取 问 题 ， 如 果 我 们 把 e 的 值 由 0.2 更 
改 为 0.5, 6 值 保 持 不 变 ， 此 时 我 们 至 少 需要 多 少 样本 ? 相反 地 ， 我 们 只 改 
变 5， 需 要 的 样本 数 是 如 何 变化 的 ? 
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3. 再 次 考虑 ， 样 本 属性 值 都 为 布尔 型 ， 分 类 需 由 属性 间 合 取 构成 的 问题 。 假 
如 我 们 的 分 类 器 由 3 个 属性 的 合 取 构成 ， 此 时 假设 空间 有 多 大 ? 例如 ， 下 


面 就 是 一 个 分 类 器 的 具体 实例 ; 


attl = true AND att2 = false AND att3 = false 

4. 假设 我 们 拥有 一 个 20 维 属性 值 是 连续 的 数据 域 。 现 在 请 在 此 数据 域 中 ， 
计算 二 次 函数 作为 分 类 器 的 VC 维 ， 并 与 三 次 多 项 式 做 比较 。 假 如 ， 此 时 
工程 师 发 现 ， 样 本 中 有 一 半 的 属性 是 不 相干 的 ， 移 除 那 些 不 相干 的 属性 ， 

















此 时 两 个 分 类 器 的 VC 维 又 是 如 何 变化 的 ? 























5. 比较 具有 8 个 属性 的 布尔 函数 和 具有 4 个 数值 属性 的 二 次 方程 作为 分 类 需 


的 可 学 习性 。 


思考 题 





1. 在 式 (7.5) P, 6 代表 了 在 给 定 训练 数据 集中 能 成 功 训练 出 分 类 器 的 概 


率 。 在 什么 情况 下 我 们 可 以 不 考虑 8 的 影响 ? 





2. 从 PAC 的 角度 来 看 ， 不 相干 的 属性 与 元 余 的 








3. 我 们 可 以 看 到 对 于 有 些 分 类 器 ， 假 如 不 添加 人 





属性 有 区 别 吗 ? 
好 约束 便 不 具有 PAC 可 学 习 


性 。 推 荐 一 个 学 习 过 程 ， 使 得 布尔 型 表达 式 作为 分 类 需 具 有 可 学 习性 ( 考 








虑 多 个 偏向 约束 ) 。 























4. 一 些 机 器 学 习 的 学 者 ， 考 虑 通过 离散 化 处 理 将 连续 型 属 似 
据 。 通 过 这 种 方式 ， 将 属性 的 取 值 范围 分 成 多 个 区 间 ， 每 个 区 间 视 为 一 个 
布尔 属性 〈 给 定 的 数值 在 或 者 不 在 区 间 内 ) 。 现 在 考虑 属性 取 值 范围 【0， 
100] 的 两 种 划分 方式 。 第 一 种 方式 ,将 取 值 范围 划分 成 [0, 50] 和 
[51, 100] 两 个 区 间 ; 第 二 种 方式 ,将 取 值 的 范围 划分 成 若干 个 相同 大 小 
的 子 空间 ， 即 [0, 10], …，[91, 100]。 从 PAC 学 习 的 角度 来 探讨 这 两 种 














方式 各 自 的 利 与 次 。 

















E 转 化 为 离散 型 数 
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对 于 那些 布 望 成 为 机 需 学 习 专 家 的 人 人， 仅仅 掌握 一 些 基 本 技巧 是 不 够 的 。 与 
书 中 的 讲解 相 比 ， 机 器 学 习 在 实际 操作 中 要 复杂 得 多 ， 工 程 师 们 往往 会 被 超出 预 
想 的 障碍 困 住 ， 同 样 ， 实 际 操 作 也 会 改变 每 个 人 对 分 类 器 的 认识 ， 例 如 ， 分 类 需 
究竟 要 干什么 ”这样 做 的 原理 是 什么 呢 ? 这 些 问题 的 答案 都 会 和 书 上 的 内 容 有 着 
极 大 的 不 同 。 就 像 在 其 他 领域 中 的 技术 科学 一 样 ， 没 有 一 定 的 创造 力 是 很 难 成 
功 的 。 

自己 实际 尝试 的 经 验 或 前 人 尝试 后 得 到 的 经 验 都 会 对 你 有 很 大 的 帮助 。 
本 章 就 是 讲解 一 些 实际 经 验 ， 对 一 些 精心 挑选 的 案例 进行 解读 ,使 读者 熟悉 
机 需 学 习 在 现实 应 用 中 会 遇 到 的 一 些 典型 问题 ， 并 学 习 实 际 操 作 中 解决 它们 
的 方法 。 
































前 边 章节 中 关注 的 识别 技术 是 很 难 编写 计算 机 程序 的 ,但 是 可 以 通过 预 分 类 
训练 样本 的 方法 来 实现 。 阅 读 文章 甚至 阅读 手写 文章 的 能 力 都 可 以 归 为 这 一 种 识 
别 技 术 。 它 的 应 用 是 非常 广泛 的 ， 例 如 ， 自 动 地 预 处 理 各 种 形式 的 文字 、 将 记事 
本 上 书写 渡 草 的 文字 转换 为 文本 编辑 器 使 用 的 字体 的 软件 、 各 种 各 样 的 将 纸 质 报 
纸 转 化 为 电子 版 的 项 目 。 仅 仅 一 两 代 人 以 前 ， 这 类 的 事业 还 被 认为 是 不 可 能 的 ， 
但 现在 没有 人 觉得 这 些 事情 有 什么 超凡 之 处 了 。 

任务 描述 。 找 到 一 种 便于 计算 机 识别 的 字符 描述 方式 是 十 分 困难 的 。 为 
了 更 好 地 明白 其 中 的 原理 ,我 们 以 数字 “5” 和 “6” 以 及 手写 字母 “t” 和 
“1” 的 区 分 过 程 为 例 进行 讲解 。 学 习 过 程 中 你 会 发 现 ， 计 算 机 对 字符 的 识别 
是 非常 困难 的 ， 而 将 我 们 脑 中 的 想法 转换 为 一 个 计算 机 可 以 理解 的 代码 是 更 
加 困难 的 。 

正 是 这 些 困 难 促使 我 们 使 用 机 器 学 习 的 方法 来 解决 问题 。 如 果 我 们 准备 好 了 
训练 样本 ， 并 把 它们 表示 成 预 分 类 的 属性 向 量 形式 ， 那 么 前 面 的 章节 中 讲 到 的 一 
些 技术 可 以 生成 分 类 器 。 这 个 过 程 似乎 简单 到 让 人 不 居于 研究 ， 但 它 的 重要 性 不 
言 而 喻 ， 让 我 们 来 看 一 下 相关 内 容 。 






































第 8 章 
儿 个 有 帮助 的 案例 




















样本 和 属性 向 量 。 首 先 ， 技术员 必须 定义 一 些 描述 样本 的 属性 。 图 8. 1 给 出 
了 一 种 可 用 的 方法 。 第 一 步 确定 数字 所 在 的 矩形 区 域 ;， 第 二 步 将 矩形 区 域 划分 为 




















6 x4 =24 个 大 小 相同 的 小 区 域 ， 用 每 个 小 区 域 的 平均 亮度 表示 小 区 域 的 特征 。 某 
一 小 区 域 有 更 多 的 墨水 意味 着 它 的 亮度 低 ， 它 的 属性 值 会 更 低 。 相 反 ， 如 果 某 个 
小 区 域 没 有 任何 墨水 ,那么 它 的 属性 值 将 是 最 大 的 。 当 然 ， 这 只 是 一 个 原理 ， 没 
有 任何 规定 要 求 必须 有 24 个 属性 。 实 际 上 ， 如 果 期 望 更 精细 的 识别 ， 则 需要 划分 
更 小 的 小 区 域 ， 那 么 用 于 描述 样本 的 属性 个 数 也 会 更 多 。 


He way 





TEE PR DLA, Ra AN EA EE (如 图 8.1 中 的 “3”) ， 而 且 
F 多 字符 的 文本 。 当 然 ， 这 并 不 会 增加 任何 的 难度 ， 只 要 将 单个 的 















































字符 分 离 出 来 ， 然 后 用 相同 的 原则 分 别处 理 即 可 。 


(有 时 候 可 能 3 


t 





6 x 4 数值 属性 矩阵 ， 每 个 
值 代表 区 域 的 平均 完 度 


8.1 将 手写 字符 图 片 转换 为 24 个 连续 属性 值 向 量 的 一 种 简单 方法 








目前 网 上 有 成 千 上 万 的 手写 字符 数据 集 可 以 下 载 ， 其 中 一 些 就 是 利用 上 述 方 
法 进行 描述 的 ， 当 然 也 有 一 些 使 用 了 其 他 方法 。 

选择 分 类 器 。 当 我 们 知道 如 何 表示 训练 样本 以 后 ， 还 需要 继续 选择 分 类 技术 。 
我 们 首先 要 明白 的 是 : 通过 图 8. 1 所 示 的 方法 获取 的 属性 向 量 中 ， 只 有 一 小 部 分 

















E 的 个 数 增加 到 和 远 远 多 于 


RA) 是 不 相关 或 元 余 的 ， 也 就 是 说 这 个 问题 无 须 担 心 (除非 属 


























图 8. 1 所 示 ) 。 另 一 个 影响 我 们 选择 机 器 学 习 范 式 的 因素 
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是 : 各 个 类 之 间 是 否 是 线性 可 分 ， 因 此 在 线性 分 类 需 的 选择 上 会 有 所 犹 驳 。 最 后 
一 点 ， 分 类 器 是 不 需要 对 结果 进行 解释 的 。 如 果 程 序 的 目的 是 阅读 且 将 手写 字体 
转换 为 文本 编辑 咒 中 的 文字 ， 那 么 用 户 不 会 想 知道 其 中 某 个 字符 归 类 为 “P” 而 
不 是 “D” 的 原因 。 

基于 以 上 观察 ， 简 单 而 又 易于 实现 的 k-NN 分 类 需 是 一 个 不 错 的 选择 。 谨 
慎 一 点 的 技术 员 可 能 会 担心 成 千 上 万 的 训练 和 测试 样本 导致 的 计算 成 本 。 但 
我 们 设置 的 属性 数量 是 适中 的 ， 这 些 成 本 不 可 能 过 高 。 从 实际 应 用 角度 来 看 ， 
整个 算法 的 “高 郧 代价 ”主要 取决 于 单个 字符 的 划分 和 字符 图 像 转换 为 属性 
向 量 的 相关 计算 。 只 要 这 两 种 “代价 ”与 分 类 “代价 ”差不多 ， 则 分 类 器 是 
完全 可 以 接受 的 。 

实际 上 ， 最 近邻 分 类 絮 是 最 常用 的 方案 ， 在 本 应 用 中 ， 错 误 率 通常 小 于 2% 。 
对 于 一 些 太 过 渡 草 的 手写 样本 ， 错 误 率 会 有 所 升 高 。 但 是 ， 我 们 也 不 能 对 机 咒 学 
习 算 法 太 过 严厉 ， 要 知道 有 时 候 一 个 经 验 丰富 的 药剂 师 也 是 难以 辨别 一 副 渡 草 的 
手写 药方 的 。 

类 别 个 数 。 如 果 我 们 假设 所 有 的 字符 都 是 大 写 的 ， 分 类 需要 识别 10 个 数字 和 
26 个 字母 ， 一 共 36 个 类 别 。 如 果 小 写字 母 和 大 写字 母 同 时 出 现 ， 那 么 总 类 别 将 达 
到 10 +2 x26 =62， 同 时 我 们 也 可 以 添加 特殊 字符 ， 例如“?”“1”“$ ”等 。 得 
到 一 个 相对 大 量 的 类 别 群 其 实 并 不 难 ， 而 且 也 值得 我 们 关注 一 下 。 

最 需要 考虑 的 问题 是 如 何 对 分 类 器 进行 评价 ， 仅 仅 使 用 错误 率 这 一 个 参数 是 
不 够 的 。 因 为 一 个 分 类 器 若 能 正确 识别 98% 的 字符 ， 它 的 性 能 已 经 好 得 令 人 叹 为 
观 止 了 。 但 是 ， 错 误 率 无 法 告诉 我 们 错误 的 分 布 情况 。 通 常情 况 下 ， 一 些 字符 总 
能 被 正确 识别 ， 妃 外 一 些 字符 的 识别 是 有 困难 的 ， 我 们 应 当 把 精力 更 多 地 放 到 识 
别 起 来 更 困难 的 这 些 字符 上 。 例 如 ,一 对 长 得 相似 的 字符 往往 会 被 混淆 ， 经 验 丰 
富 的 技术 员 往 往 想 要 知道 是 哪些 “字符 对 ”导致 了 学 习 过 程 中 的 混淆 ， 以 便 通 过 
对 这 些 难 以 识别 的 类 增加 额外 的 训练 来 解决 这 个 问题 。 

然而 ， 相 比 于 其 他 字母 ， 有 一 些 字母 较 少见 。 在 这 种 情况 下 ， 如 果 不 采 取 特 
殊 的 预防 措施 ， 这 些 “ 稀 有 的 ”类 别 将 会 被 机 右 学 习 算 法 “和 忽视”， 关 于 这 个 问 
题 本 书 将 在 10. 2 节 做 更 详细 的 讨论 。 
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分 类 器 应 该 被 允许 拒绝 识别 某 个 样本 。 辨 识 某 个 人 的 笔迹 是 很 困难 的 一 件 事 ， 
有 些 字母 的 模糊 程度 让 阅读 者 都 无 法 辨认 。 然 而 第 3 童 介绍 的 k-NN 分 类 器 却 未 被 
这 些 模 糊 的 字符 吓 住 : 无 论 这 个 字母 写 得 多 么 流 草 ， 它 总 会 找到 一 个 最 相似 的 类 
别 并 将 它 归 于 这 一 类 。 

实际 经 验 表明 这 种 情形 是 很 粳 糕 的 ， 得 到 一 个 错误 分 类 产生 的 坏 影响 远 远大 
于 不 能 判断 该 样本 的 类 别 产生 的 影响 。 例 如 ， 在 一 个 自动 读 取 邮 政 编码 的 设备 中 ， 
读 取 一 个 错误 的 数字 将 会 导致 一 封 信件 被 送 到 了 错误 的 目的 地 ， 进 而 会 引起 延迟 
交付 。 另 一 方面 ， 如 果 分 类 器 没有 给 出 任何 答案 ， 那 么 员工 则 不 得 不 自己 去 读 取 。 
那么 人 工 处 理 的 代价 会 小 于 机 器 处 理 得 到 错误 地 址 的 代价 。 

因此 分 类 需 必 须 有 拒绝 识别 样本 的 功能 ， 特 别 是 没有 足够 的 证 据 支 持 它 属于 
某 个 类 别 的 样本 时 。 对 于 A-NN 分 类 器 实现 上 述 功能 的 最 简单 的 方法 就 是 在 最 后 确 
定 的 类 别 获得 的 票数 和 第 二 名 获得 的 票数 之 间 设 置 一 个 最 小 的 浆 值 。 例 如 ， 在 7- 
NN 分 类 需 中 ， 最 后 确定 的 类 别 得 到 的 票数 是 4， 而 第 二 名 获得 了 3 票 ， 那 么 这 个 
样本 由 于 不 能 明确 究竟 属于 哪个 类 而 被 拒绝 识别 。 

在 其 他 一 些 例 子 中 类 似 的 功能 很 容易 实现 ， 例 如 ， 贝 叶 斯 分 类 顺 或 神经 网 络 : 
分 类 需 对 某 一 个 样本 最 有 可 能 的 两 个 类 别 的 概率 值 或 输出 信号 进行 简单 的 比较 ， 
如 果 它 们 的 差距 没有 超过 预定 的 阐 值 ， 则 拒绝 对 这 个 样本 分 类 。 

错误 率 VS 丢弃 率 。 分 类 器 拒绝 分 类 模糊 的 样本 会 减 小 错误 率 ; 男 一 方 
面 ， 拒 绝 次 数 太 多 对 分 类 融 而 言 也 不 是 一 件 好 事 。 如 果 所 有 的 样本 都 被 拒绝 
了 会 怎么 样 ? 那样 错误 率 将 为 零 ， 但 是 用 户 会 质疑 : 这 个 工具 有 什么 实际 的 
用 处 呢 ? 

我 们 得 到 的 经 验 就 是 ， 技 术 员 需要 考虑 拒绝 率 和 错误 率 之 间 的 权衡 。 增 加 拒 
绝 率 可 能 会 减少 错误 率 ， 但 过 度 增加 拒绝 率 则 会 使 分 类 带 毫 无 价值 。 






























































会 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 阅 述 如 何 利 用 属性 向 量 表示 手写 字符 。 
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工具 时 ， 需 要 考虑 哪些 方面 (以 及 为 什么 )? 
会 产生 什么 直接 影响 ? 为 什么 这 里 说 错误 率 不 能 解释 

















© 为 什么 分 类 器 可 以 丢弃 某 些 样本 ? 讨论 丢弃 率 和 错误 率 之 间 的 平衡 关系 ， 
讨论 性 能 和 实用 性 之 间 的 相互 作用 。 





8.2 游 油 检测 








图 8. 2 是 由 卫星 拍摄 的 海平 面 的 雷达 图 像 。 在 浅 灰 色 的 背景 下 ， 我 们 可 以 看 
到 几 个 显著 的 深 色 区 域 : 或 大 或 小 ， 显 眼 或 不 显眼 ， 还 会 有 各 种 形状 。 我 们 主要 
感 兴趣 的 是 右上 和 角 区 域 里 的 那个 显眼 且 修 长 的 目标 : 即 石油 泄露 区 域 ， 因 为 一 个 
游轮 船长 为 了 丢弃 船 底下 的 残 漆 而 在 大 海上 非法 倾倒 导致 的 。 同 样 地 ， 这 个 特殊 
的 溢 油 引起 了 海岸 警卫 队 的 极 大 关注 。 

对 于 所 有 相关 的 海域 (如 毗邻 的 主要 港口 ) ， 卫 星 拍摄 了 很 多 这 样 的 “ 快 
照 ”， 并 把 它们 发 给 了 地 面 合作 站 。 专 家 们 在 这 里 仔细 人 研究 这 些 图 像 来 搜索 石油 非 
法 泄露 的 迹象 。 不 论 何 时 ， 只 要 专家 们 发 现 一 个 ， 就 会 派 遗 一 架 飞 机 ， 携 带 光 谱 
仪 来 验证 这 个 迹象 是 否 真 的 是 溢 油 (这 个 任务 对 于 卫星 来 说 是 无 法 完成 的 )， 进 
而 收集 证 据 ， 甚 至 有 机 会 抓 到 肇事 者 。 

不 笠 的 是 ， 专 家 的 人 工 费 用 是 昂贵 的 ， 并 且 不 是 随时 可 用 的 。 他 们 可 能 因为 
休假 、 生 病 或 者 其 他 一 些 原因 不 能 参与 进来 。 此 外 ， 大 量 的 图 片 识别 工作 是 极其 
无 聊 的 ， 容 易 出 现 辨识 错误 。 这 就 是 要 开发 一 个 能 自动 识别 漏 油 过 程 的 计算 机 程 
序 的 原因 。 

图 8. 2 是 从 众多 照片 中 选 出 来 的 一 张 ， 主 要 原因 是 它 极 其 罕见 的 清晰 性 。 事 
实 上 ， 未 经 训练 的 我 们 用 肉眼 也 能 看 出 来 ,图 8. 2 中 所 包含 的 石油 泄露 区 是 不 同 
于 其 他 黑暗 区 域 的 。 即 便 如 此 ， 我 们 也 发 现 可 用 于 计算 机 程序 识别 “ 漏 油 事件 ” 
的 辨识 特征 是 十 分 困难 的 。 就 实际 目标 而 言 ， 任 务 将 更 加 困难 。 无 论 如 何 ， 为 漏 
油 事件 编写 具有 识别 能 力 的 程序 都 是 一 个 相当 大 的 挑战 。 
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图 8.2 海面 的 雷达 图 像 ， 右 上 角 蠕 动 的 细 长 的 黑色 区 域 代 表 
环境 灾害 : 石油 泄露 (FBR S) 


再 一 次 ， 机 器 学 习 让 我 们 看 到 了 希望， 我 们 试图 让 机 器 自主 开发 一 些 必要 的 

从 训练 样本 中 归纳 出 方法 。 一 般 来 说 这 种 尝试 可 以 总 结 为 以 下 儿 步 。 

1) 收集 一 些 包 含 石油 泄露 的 雷达 图 像 。 

2) 使 用 具有 标示 能 力 的 图 像 处 理 软 件 ， 在 这 些 照片 中 找 出 显著 的 黑色 区 域 。 

3) 请 专家 从 中 标记 这 些 石油 泄露 的 正面 样本 ， 其 他 黑暗 区 域 ( 所谓 的 “长 
得 相似 的 区 域 ") 为 负面 样本 。 

4) 用 属性 向 量 描述 所 有 样本 ， 让 机 顺 学 习 程 序 从 样本 中 训练 产生 所 需 的 分 
Kiko 

类 似 于 前 面 的 应 用 ， 我 们 将 仔细 研究 这 个 案例 中 的 一 些 关键 点 以 吸取 相关 


属性 和 类 标 。 最 新 的 图 像 处 理 技术 很 容易 发 现 图 像 中 的 黑暗 区 域 。 要 想 让 它 


们 更 好 地 为 机 器 学 习 技术 所 使 用 ,我们 需要 用 属性 来 描述 所 有 的 图 像 以 便于 辨识 
溢 油 区 域 。 最 理想 的 是 属性 值 能 够 不 受 所 给 定 对 象 的 大 小 和 方向 影响 。 


这 个 项 目 中 使 用 的 属性 ， 包 括 区 域 的 平均 亮度 、 平 均 边 缘 梯度 〈 用 来 量化 边 


缘 的 清晰 度 ) 、 目 标 短 轴 长 度 和 长 轴 长 度 之 间 的 比例 、 背 景 强 度 差 异 、 边 缘 梯 度 的 
差异 等 。 总 之 ， 通 过 各 种 特别 的 方式 可 以 构造 出 40 多 个 类 似 的 属性 。 很 难说 其 中 
哪些 是 真 的 有 用 ， 因 为 专家 们 对 属性 各 自 的 相关 性 和 元 余 性 也 无 法 达成 共识 。 我 
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们 把 最 后 的 机 会 留 给 了 机 器 学 习 程 序 。 

把 训练 的 样本 分 门 别 类 地 标记 也 不 是 件 容 易 的 事情 ， 图 8. 2 中 的 例子 是 较为 
容易 归 类 的 ， 在 其 他 图 像 中 可 能 会 更 加 模糊 。 大 多 时 候 专 家 最 可 能 会 说 的 是 “是 
的 ， 这 看 起 来 像 是 洪 油 事件 ”或 者 “我 觉得 这 就 是 我 们 正在 找 的 "。 因 此 类 标的 
正确 性 非常 不 稳定 ， 从 而 产生 类 别 扰乱 。 类 别 扰乱 的 出 现 降低 了 我 们 的 期 望 : 分 
类 骨 只 能 在 训练 样本 数据 上 得 到 好 结果 。 

选择 分 类 器 。 这 些 样本 被 40 多 个 属性 描述 ， 而 其 中 的 大 部 分 可 能 是 不 相关 或 元 
余 的 。 这 是 一 个 严重 的 状况 ， 读 者 应 该 记得 无 关 和 宛 余 属性 的 存在 会 使 得 一 些 分 类 
需 表 现 不 佳 。 在 这 个 特定 的 应 用 中 ， 首 先 要 使 用 一 个 决策 树 来 避免 这 个 问题 ， 消 除 
那些 没有 在 任何 树 中 出 现 过 的 属性 。 这 是 一 种 非常 合乎 逻辑 的 做 法 。 毕 部， 属性 包 
含 的 信息 决定 了 其 是 否 能 够 包含 在 树 中 。 由 于 无 关 属 性 中 的 信息 含量 非常 少 ， 用 决 
策 树 方法 来 做 识别 是 十 分 可 靠 的 ， 同 样 在 某 种 程度 上 元 余 属 性 也 可 以 被 消除 。 

当 那 些 经 过 决策 树 般 选 保留 下 来 的 属性 被 应 用 到 -NN 分 类 需 时 ， 分 类 需 的 性 
能 应 当 是 非常 不 错 的 。 那 么 溢 油 问题 只 要 有 一 个 简单 的 机 器 学 习 技 术 就 能 很 好 地 
解决 了 : 只 要 有 的 选 ， 技 术 人 员 总 是 倾向 于 使 用 更 简单 的 工具 。 

选择 -NN 分 类 需 也 有 其 他 几 方 面 的 考虑 。 这 是 许多 实例 中 的 典型 应 用 ， 下 面 
我 们 来 详细 地 讨论 一 下 。 

误差 成 本 。 在 这 里 ， 人 性 能 评价 不 像 之 前 章节 那么 简单 。 一 方面 ， 错 误 率 在 该 
应 用 中 可 能 会 误导 海洋 监管 者 ， 产 生 各 种 各 样 的 附带 伤害 和 损失 。 这 在 溢 油 检测 
中 是 非常 明显 的 ， 一 个 没有 污染 的 地 区 被 判 为 污染 〈 下 文 称 为 假 阳性 错误 ) ， 会 
导致 飞机 白白 地 飞 往 一 个 可 疑 的 “无 束 ” 地 区 ,这 意味 着 时 间 和 资源 的 浪费 OE 
意 ， 消 耗 的 不 仅 是 金钱 也 是 信任 ， 因 为 这 些 错 误会 降低 使 用 者 对 分 类 器 的 信任 ) 。 
另 一 方面 ， 一 个 污染 的 地 区 如 果 被 判断 为 没有 污染 〈 下 文 称 为 假 阴 性 错误 ) ， 意 
味 着 会 有 一 个 没 被 发 现 的 环境 危害 ， 其 后 果 不 可 预料 ( 金钱 、 环 境 和 政治 都 会 受 
到 影响 ) 。 鉴 于 这 一 情况 ， 我 们 可 以 看 到 这 两 类 错误 是 非常 不 同 的 ， 我 们 甚至 无 法 
对 它们 进行 比较 ， 这 也 增加 了 完成 该 案例 的 难度 。 

在 测试 数据 集 上 的 实验 表明 ， 分 类 需 犯 的 错误 大 多 数 为 假 阳 性 错误 〈 即 假 警 
报 ) 。 至 于 假 阴 性 错误 ， 其 实 是 非常 罕见 的 。 那 么 根据 这 个 观察 来 修改 分 类 需 以 改 
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变 这 两 类 错误 的 比例 是 否 可 行 呢 ? 

我 们 很 难 孤 立地 从 本 应 用 的 短暂 需求 来 回答 这 个 问题 。 财 政 上 的 约束 可 能 侦 
尔 会 迫使 用 户 接受 环境 危害 的 风险 ， 因 为 预算 不 能 容忍 错误 警报 。 从 而 用 户 希 望 
减少 假 阳 性 的 频率 ， 即 使 这 意味 着 石油 泄漏 存在 但 没有 检测 到 的 可 能 性 增加 CAB 
阴性 错误 ) 。 

当然 ， 这 种 情况 在 经 济 繁 荣 时 期 将 会 改变 ， 此 时 用 户 不 想 错 过 任何 一 个 石油 
泄漏 ， 他 们 可 以 接受 更 高 频率 的 假 阳 性 错误 从 而 保证 非常 少 的 假 阴 性 错误 。 

倾向 于 学 习 一 个 或 多 个 类 。 针 对 这 些 需 要 权衡 的 问题 ， 要 让 用 户 有 机 会 调整 
分 类 带 ， 来 调整 一 种 或 多 种 类 型 错误 的 频率 。 

正如 前 面 提 到 的 ， 由 于 该 案例 使 用 k-NN 分 类 器 ， 因 此 这 个 要 求 很 容易 满足 : 
诀窍 在 于 控制 支持 两 类 的 决策 的 边界 。 方 便 起 见 ， 假 设 我 们 使 用 了 一 个 7-NN 分 类 
器 。 如 果 我 们 规定 如 果 某 一 样本 至 少 有 5 个 最 近邻 是 正 样本 时 ， 才 能 将 它 分 类 标 
记 为 正 样本 ， 那 么 可 以 有 效 地 减少 假 阳 性 错误 的 数量 ; 任何 样本 不 能 满足 这 个 条 
件 则 被 视 为 负 样本 。 与 之 相对 的 是 ， 如 果 我 们 想 降 低 假 阴 性 错误 的 频率 ， 我 们 让 
分 类 需 满 足 至 少 3 个 最 近邻 是 正 样 本 时 返回 正 样 本 标签 。 用 户 对 错误 类 型 的 偏好 
通过 最 近邻 中 正 样 本 所 占 的 比例 来 改变 。 


























P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

e 技术 人 员 是 如 何 处 理 匈 余 或 不 相关 属性 的 ? 是 如 何 识别 那些 少 而 有 用 的 属 





性 的 ? 
e 在 训练 集中 ,什么 可 以 被 认为 是 可 靠 的 类 别 ? 分 类 器 的 期 望 性 能 是 什么 
意思 ? 








讨论 这 个 案例 中 两 种 错误 的 代价 : 假 阳 性 和 假 阴 性 。 可 以 使 用 相同 的 计量 
单位 做 比较 吗 ? 为 什么 用 户 需 要 一 个 机 制 通过 付出 一 种 错误 的 代价 来 降低 
另 一 种 错误 ? 

解释 近邻 分 类 器 用 来 增加 或 减少 其 中 一 种 错误 机 制 的 本 质 。 
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8.3 睡眠 分 类 





整个 晚上 ， 我 们 经 历 不 同 的 睡眠 阶段 ， 如 座 度 睡眠 、 浅 度 睡眠 或 快速 眼 动 睡 
眠 (简称 REM， 当 我 们 做 梦 时 出 现 ) 。 为 了 确定 在 一 个 具体 的 睡眠 过 程 中 的 这 些 
阶段 ， 科 学 家 运用 了 先进 设备 做 了 细致 观察 .记录 眼球 运动 的 眼 电 图 、 记 录 肌 肉 
收缩 的 肌 电 图 和 通过 在 头皮 上 贴 上 电极 记录 的 大 脑 神经 信号 。 基 于 所 有 这 些 仪 需 
的 结果 ， 医 学 专家 可 以 判断 任何 一 个 给 定 的 时 刻 处 于 哪个 阶段 ， 黄 至 可 以 画 出 睡 
眠 时 相 序列 图 ， 如 图 8. 3 所 示 。 
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活动 
快速 眼 动 睡眠 5 L n 
阶段 1 | | | 
阶段 2 7 l | 
阶段 3/4 


2 4 6 8 睡眠 时 间 /h 





















































8.3 一 个 8h 睡眠 过 程 的 时 相 序 列 图 记 









































可 以 看 到 深度 睡眠 在 这 8h 的 睡眠 时 间 里 只 出 现 了 3 次 ,并 且 不 会 持续 太 长 的 
时 间 。 还 要 注意 “移动 阶段 " ， 这 发 生 在 试验 志愿 者 从 一 侧 转向 另 一 侧 以 及 移动 
头 部 或 手臂 时 。 

为 什么 重要 。 医 疗 过 程 中 有 时 需要 能 够 识别 特定 的 睡眠 阶段 。 一 个 典型 的 例 
子 就 是 所 谓 的 婴儿 独 死 综合 症 (SIDS): 婴儿 在 没有 任何 明显 原因 的 情况 下 死亡 。 
在 医院 中 ， 被 怀疑 处 于 危险 当中 的 新 生 儿 必须 处 在 检测 中 ， 从 而 可 以 随时 使 其 苏 
醒 。 幸 运 的 是 ， 婴 儿 狂 死 综合 证 总 是 发 生 在 快速 眼 动 睡眠 阶段 ， 这 就 意味 着 没有 
必要 对 婴儿 实施 全 时 间 段 的 监护 ， 只 是 在 REM 这 个 阶段 风险 会 增 大 。 举 例 来 说 ， 
一 个 设备 可 以 识别 快速 眼 动 睡眠 阶段 ， 这 就 可 以 提醒 护士 : 婴儿 在 接 下 来 的 5min 
可 能 需要 更 多 的 关注 。 
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在 夜间 睡眠 阶段 的 分 布 情况 可 以 用 于 诊断 特定 的 神经 疾病 ， 如 瘦 痛 ， 因 此 时 
眠 时 相 序列 图 也 是 一 个 有 效 的 诊断 工具 。 

为 什么 利用 机 器 学 习 。 手 工 画 睡眠 时 相 序列 图 是 缓慢 而 枯燥 的 工作 ， 对 于 高 
素质 的 专家 也 要 花费 3 ~5h， 而且 专家 也 不 是 随时 可 以 找到 的 。 这 就 是 为 什么 我 
们 一 直 在 努力 开发 能 够 实现 从 观测 数据 中 识别 各 睡眠 阶段 的 计算 机 程序 ， 其 至 希 
望 能 画 出 睡眠 时 相 序列 图 。 

为 了 实现 这 个 功能 ， 计 算 机 需要 对 每 个 阶段 有 一 个 描述 。 然 而 这 是 很 难 实现 
的 ， 医 学 专家 也 是 通过 长 期 观察 获得 经 验 的 ， 他 们 所 使 用 的 特征 和 描述 十 分 主观 ， 
无 法 转换 为 计算 机 程序 。 

这 促使 我 们 尝试 通过 预 分 类 数据 去 训练 分 类 器 。 具 体 而 言 ， 数 据 采集 过 程 将 
Sh 的 睡眠 时 期 分 为 许多 30s 的 片段 ， 每 个 片段 都 视 为 一 个 单独 的 训练 样本 。 几 个 
小 时 的 睡眠 可 以 提供 数 以 百 计 的 训练 样本 。 然 后 不 同 的 设备 对 着 30s 的 样本 进行 
描述 。 

属性 和 类 别 。 与 以 往 一 样 ， 第 一 步 仍 然 是 剔除 可 能 无 关 或 元 余 的 属性 。 在 前 
面 溢 油 识别 的 应 用 程序 中 ， 属 性 选择 的 目的 是 增强 -NN 分 类 器 (由 于 该 分 类 器 
对 此 类 特征 非常 敏感 ) 的 性 能 。 在 睡眠 分 类 中 ， 还 有 一 个 需要 考虑 的 原因 : 医生 
希望 附加 在 被 试 者 身上 的 设备 尽 可 能 的 少 。 设 备 的 存在 不 仅 会 让 被 试 者 感到 不 舒 
服 ， 而且 还 打扰 睡眠 ， 会 影响 睡眠 分 析 的 结果 。 

至 于 类 别 的 标示 ， 在 这 个 实验 中 可 能 比 在 漏 油 检测 问题 中 的 类 标 更 不 可 信 。 
“ 相 邻 的 ”( 相似 的 ) 睡眠 阶段 之 间 的 差异 是 非常 不 明显 的 ， 任 意 两 个 专家 同时 认 
同 某 一 样本 分 类 结果 的 概率 很 少 能 达到 70% ~ 80% 的 ， 因 此 训练 样本 包含 大 量 的 
类 标 噪 声 也 不 是 什么 奇怪 的 事 了 。 低 质量 的 数据 使 得 我 们 要 给 分 类 器 一 个 最 小 错 
误 率 的 限制 ， 这 在 基于 数据 构造 的 分 类 器 上 都 可 以 实现 。 

分 类 器 和 性 能 。 在 这 一 特殊 案例 中 ， 我 们 使 用 的 是 决策 树 和 神经 网 络 相 结合 
的 分 类 器 方法 ， 其 具体 细节 在 这 里 并 不 重要 。 这 里 需要 说 明 的 是 ， 分 类 器 在 独立 
数据 集 上 的 精度 确实 达到 了 70% ~ 80% ， 这 意味 着 已 达到 了 人 类 专家 观察 的 性 能 
极限 。 值 得 注意 的 是 ， 单纯 决策 树 的 方法 与 两 者 相 结 合 的 方式 相 比 ， 精 确 度 要 纶 
几 个 百分点 。 
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但 重要 的 是 ， 分 类 器 的 行为 并 不 能 单 用 分 类 精度 来 描述 (这 与 8.1 节 中 OCR 
的 应 用 相似 ) 。 第 一 ， 分 类 器 大 部 分 时 间 能 够 正确 识别 这 7 类 中 的 一 部 分 ， 但 剩 下 
的 部 分 不 能 识别 ， 分 类 器 在 快速 眼 动 睡眠 阶段 的 识别 情况 更 是 令 人 堪忧 。 该 案例 
中 分 类 精度 范围 在 90% ~95% 之 间 ， 乍 一 看 结果 足够 好 了 。 然 而 ， 仔 细 查 看 训练 
数据 发 现 ， 只 有 不 到 10% 的 样本 属于 快速 眼 动 睡眠 类 。 这 意味 着 即便 一 个 分 类 器 
获得 了 好 分 类 精度 ， 也 可 以 说 “测试 数据 中 没有 一 个 样本 属于 快速 眼 动 睡眠 阶 
段 ” 一 一 这 不 是 我 们 希望 得 到 的 结果 。 

我 们 意识 到 这 种 性 能 度量 标准 是 具有 局 限 性 的 ， 所 以 必须 寻找 其 他 的 标准 。 
而 且 这 也 确实 存在 ， 将 在 第 11 章 进行 讨论 。 

过 后 期 处 理 改善 分 类 性 能 。 睡 眠 时 相 序 列 图 的 性 能 可 以 根据 领域 知识 进 
行 改善 。 FXE, 一些 经 验 规 律 可 以 用 在 这 里 。 举 例 来 说 ， 图 8. 3 中 ， 深 度 睡 
IR (阶段 34) 不 太 可 能 发 生 在 REM 阶段 之 后 ， 并 且 阶 段 2 不 会 发 生 在 “移动 
阶段 ”之 后 。 同 时 ， 睡 眠 时 相 序 列 图 可 以 通过 移 除 任何 只 持续 一 个 30s 周期 的 
阶段 来 完成 平滑 。 在 后 期 处 理 的 过 程 中 这 些 规 则 的 使 用 可 以 提高 睡眠 时 相 序列 
图 的 价值 。 

本 节 的 案例 是 非常 有 价值 的 。 在 该 应 用 中 样本 是 时 序数 据 ， 每 个 样本 的 类 
标 与 其 前 后 样本 之 间 是 相关 的 。 在 这 种 情况 下 ， 后 期 处 理 可 以 提高 分 类 器 的 
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正确 使 用 分 类 器 。 最 初 的 想法 是 从 几 个 被 测试 者 中 获取 样本 训练 分 类 器 ， 然 
后 使 用 这 个 分 类 器 识别 新 的 数据 ， 以 代 蔡 昂贵 的 “人 工 ” 分 类 。 然 而 ， 这 个 想法 
是 不 现实 的 。 实 践 经 验 表明 ， 睡 眠 数据 没有 “通用 的 分 类 需 ” 可 以 通过 这 种 方式 
获得 : 用 一 个 被 测试 者 的 数据 训练 得 到 的 分 类 需 很 难 在 性 能 没有 严重 退化 的 情况 
下 应 用 于 另 一 个 人 的 睡眠 时 相 序列 图 。 

但 这 并 不 意味 着 机 需 学 习 在 这 一 领域 是 完全 不 合适 的 。 用 户 只 需要 改变 一 下 
对 分 类 器 的 期 望 : 不 再 追求 一 个 通用 的 分 类 器 ， 而 是 针对 每 个 被 试 者 分 别 训练 一 
个 分 类 器 。 这 也 能 大 大 降低 专家 的 工作 量 。 具 体 步 骤 如 下 : 
1) 专家 确定 为 样本 的 一 个 子 集 进 行 分 类 ， 从 而 创建 一 个 训练 样本 。 
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2) 用 训练 样本 训练 分 类 器 。 
3) 利用 分 类 器 识 别 剩余 样本 ， 从 而 节省 专家 的 时 间 。 








Pi 你 学 到 了 什么 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 在 这 个 案例 中 ， 为 什么 最 小 化 属性 数量 是 重要 的 ? 如 何 识别 相关 属性 ? 
。 睡眠 阶段 有 7 个 类 别 。 技 术 人 员 对 分 类 器 性 能 进行 评估 的 原因 是 什么 ? 
。 在 睡眠 时 相 序列 图 中 ， 样 本 按时 间 上 顺序 排 列 。 在 数据 后 期 处 理 中 如 何 利用 
这 种 情况 ? 
。 在 什么 情况 下 ， 机 器 学 习 可 以 帮助 人 类 减轻 数据 分 类 的 负担 ? 

















8.4 脑 机 界面 





控制 身体 的 肌肉 的 命令 是 由 大 脑 运 动 皮层 的 相关 区 域 下 达 的 。 所 以 完全 瘫痪 
的 病人 也 能 从 大 脑 中 产生 这 些 命令 ,但 不 幸 的 是 ， 对 于 瘫痪 的 病人 这 些 信息 无 法 
到 达 肌 肉 。 事 实 上 ， 这 些 信号 与 电极 接触 就 会 被 检测 到 ， 所 以 人 们 产生 了 一 个 奇 
妙 的 想法 : 这 些 信 号 能 否 被 正确 记录 再 加 以 解释 ? 是 否 可 以 用 来 控制 计算 机 屏幕 
上 的 光标 ? 如 果 能 ， 那 么 次 次 患者 就 有 了 和 外 界 交 流 的 方式 ， 人 尽管 他 们 本 身 不 能 




















运动 信号 本 身 是 十 分 复杂 的 ， 我 们 无 法 用 数学 公式 来 表示 ， 但 是 我 们 可 以 记 
录 信号 ， 通 过 属性 描述 他 们 ， 再 标注 出 具体 的 运动 指令 。 这 样 我 们 就 可 以 用 一 个 
训练 样本 集 ， 通 过 一 个 机 需 学 习 程 序 来 获得 分 类 需 。 

实验 样本 。 本 节 将 描述 一 个 仅 包 含 两 个 类 别 的 特殊 例子 : 左 和 右 。 训 练 和 测 
试 样本 都 是 通过 下 文 的 实验 来 获得 的 。 一 个 被 测试 者 坐 在 计算 机 显示 事前 ， 前 方 
是 一 个 有 两 个 按钮 的 木板 。 他 将 根据 显示 器 上 的 指令 ， 一 个 用 左手 食指 按压 ， 一 
个 用 右手 食指 按压 〈 见 图 8.4) 。 
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WS CUE RS ae 

运动 
| | | | | 
| | | | | 
0 1 2 3 4 5 6 7 8 


图 8.4 实验 方式 : 准备 (WS) 信号 后 跟随 着 CUE 信号 (AXA), YRS 
出 现时 ， 被 试 者 暂停 ls， 然 后 按 下 CUE 按钮 

整个 场景 按照 图 8.4 所 示 的 时 间 线 进行 ， 贴 在 头皮 上 的 接触 电极 (ILE 8. 5) 
记录 按压 按钮 前 一 段 时 间 内 的 神经 信号 的 强度 ， 各 电极 产生 的 信号 用 5 个 数字 属 
性 描述 ， 每 个 数字 代表 着 一 个 特定 的 时 G 
间 间 隔 内 信和 号 的 强 弱 。 Gs 

如 图 8.5 所 示 ， 只 有 部 分 (11 个) 
电极 被 使 用 。 对 于 这 11 个 电极 ， 每 个 用 
5 个 属性 描述 ， 总 共 55 个 属性 。 总 之 ， 
被 试 者 通过 操作 产生 了 包含 两 个 类 的 少 
量 样 本 。 由 于 我 们 知道 是 哪个 按钮 实际 
上 被 按压 ， 因 此 训练 样本 也 不 存在 类 标 
噪声 。 但 实验 者 可 能 会 怀疑 这 些 属 性 中 
的 很 多 都 是 不 相关 的 。 

分 类 器 和 其 局 限 性 。 包 括 多 层 感 知 机 和 最 近邻 分 类 器 在 内 的 一 些 机 器 学 习 技 
术 在 实验 的 时 候 ， 通 常 利 用 规范 化 属性 的 取 值 范 围 避免 尺度 相关 问题 。 类 似 于 前 
面 草 节 的 做 法 ， 利 用 决策 树 选 择 相关 属性 。 

基于 前 面 的 测试 数据 ， 这 些 分 类 需 的 错误 率 稳 定 在 20% ~30% 之 间 ， 这 个 结 
果 也 取决 于 具体 的 被 测试 者 。 由 于 实验 中 电极 提供 的 信息 不 够 ， 因 此 分 类 器 很 难 
达到 更 好 的 精度 了 。 

更 重要 的 是 在 睡眠 分 类 案例 中 ， 通 过 一 个 被 测试 者 的 样本 数据 获得 的 分 类 央 
仅 适 用 于 被 测试 者 自己 。 所 有 创建 通用 分 类 器 的 尝试 都 以 失败 告终 ， 其 错误 率 高 
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图 8.5 被 测试 者 接触 电极 的 贴 放 (LA 
高 亮 的 几 个 电极 是 有 用 的 ) 
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到 让 分 类 过 程 看 起 来 像 是 随机 的 。 

检验 分 类 器 的 实用 性 。 跟 之 前 的 应 用 案例 一 样 ， 错 误 率 不 能 反映 分 类 带 的 全 
部 。 分 类 天 的 实用 性 取决 于 它 在 实际 应 用 中 的 方案 。 在 这 个 例子 中 ， 关 键 问题 在 
T: 分 类 需 是 否 能 把 光标 移动 到 正确 的 位 置 。 

图 8. 6 所 示 的 实验 回答 了 这 个 问题 ， 实 验 者 仍 坐 在 计算 机 显示 带 前 ,头皮 上 
贴 着 电极 ， 然 而 有 两 个 按钮 的 木板 已 经 移 除 。 在 显示 如 上 ， 有 两 个 和 矩形， 一 个 在 
左边 ， 一 个 在 右边 ， 中 间 是 一 个 十 字 的 形状 。 
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图 8.6 根据 被 试 者 思想 让 光标 左右 移动 的 分 类 任务 











当 听 到 指示 要 移动 光标 向 右 时 ， 对 象 仅 想象 他 按 了 右边 的 按钮 。 电 极 记录 神 
经 信号 ， 并 将 它们 传送 到 分 类 器 。 分 类 器 根据 这 些 信 号 选择 光标 的 移动 方向 (类 
别 : 左 和 右 ) 。 移 动 过 程 非常 缓慢 从 而 有 机 会 纠正 错误 的 方向 ， 为 了 做 到 这 一 点 ， 
对 神经 信号 进行 重复 采样 ， 每 个 采样 都 标记 为 一 个 样本 送 到 分 类 需 中 。 假 设 被 测 
试 者 的 意图 是 将 光标 移动 到 右 侧 ， 有 可 能 第 一 个 样本 被 判 为 左 ， 使 光标 移动 到 了 
错误 方向 ， 但 是 如 果 接 下 来 的 样本 能 够 正确 地 使 光标 移动 到 右 侧 ， 光 标 最 终 会 停 
放 在 正确 的 矩形 内 。 

什么 样 的 错误 率 是 可 以 接受 的 ? 在 刚刚 描述 的 场景 中 ，30% 的 错误 率 (看 起 
来 相当 高 ) 是 完全 可 以 接受 的 ， 即 使 光标 开始 在 错误 的 方向 ， 我 们 仍然 有 机 会 把 
错误 的 光标 移动 到 正确 的 方向 ,结果 是 光标 几乎 都 落 在 了 正确 的 矩形 里 ， 即 使 在 
移动 到 正确 方向 前 有 些 犹 豫 。 

一 个 公正 的 观察 员 ， 在 不 了 解 分 类 器 是 如 何 被 实际 应 用 时 ， 很 少 能 注意 到 移 
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动 过 程 中 的 错误 ,偶然 错误 (光标 前 后 晃动 ) 有 时 候 是 被 测试 者 的 犹豫 不 定 导致 
NY, FPN ET aI 

只 有 当 错 误 率 高 于 30% 才能 使 光标 经 常 移 错位 置 ， 这 个 分 类 需 的 结果 才 有 点 
儿 让 人 失望 。 对 分 类 器 的 性 能 来 说 ， 移 动 光 标的 平均 时 间或 许 是 一 个 更 好 的 衡量 
标准 。 

历史 简 评 。 分 类 融 的 表现 因 人 而 异 。 基 于 多 个 被 测试 者 在 通用 分 类 融 上 的 训 
练 ， 分 类 器 产生 的 错误 率 高 得 几乎 令 人 望而却步 。 它 的 一 个 缺点 在 于 该 分 类 器 只 
能 针对 于 同一 患者 。 另 一 点 ， 两 个 类 别 并 不 够 用 ， 至 少 要 再 增加 上 和 下 两 个 类 ， 
但 这 样 得 到 的 实验 结果 并 不 好 。 因 此 ， 要 想 实现 和 病人 的 交流 ， 我 们 还 需 寻 找 其 
他 方法 。 所 以 ， 整 个 实验 是 一 个 成 功 的 机 器 学 习 案例 ， 但 它 并 不 满足 医学 领域 的 
需要 ， 无 法 实际 应 用 。 

















T 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
o 讨论 该 案例 中 的 现象 : 用 一 个 被 测试 者 的 样本 数据 获得 的 分 类 器 无 法 用 于 
其 他 被 测试 者 。 
© 这 一 领域 中 ，309% 的 错误 率 仍 被 人 们 认为 是 可 以 接受 范围 ,解释 其 原因 。 
有 其 他 度量 分 类 器 性 能 的 方法 吗 ? 在 这 个 应 用 中 你 有 什么 建议 ? 














8.5 ”医疗 诊断 


医生 找 出 病人 病因 的 过 程 就 有 点 儿 像 一 个 分 类 器 : 基于 某 些 属性 (病人 的 症 
状 、 实 验 室 测试 的 结果 ) 给 出 诊断 结果 和 治疗 方案 。 在 早期 的 机 需 学 习 研 究 中 ， 
因为 这 一 原因 人 们 认为 机 需 学 习 天 生 就 适用 于 医学 诊断 ， 几 乎 将 其 直接 地 应 用 于 
医学 实践 中 。 

一 些 结果 。 人 们 之 所 以 对 机 顺 学 习 应 用 于 医疗 诊断 抱 有 乐观 的 态度 ， 是 因为 
早期 的 研究 结果 ， 见 表 8. 1。 表 中 的 分 类 准确 率 是 分 别 用 贝 叶 斯 分 类 需 、 决 策 树 
































第 8 章 
儿 个 有 帮助 的 案例 




















以 及 医生 针对 相同 测试 样本 获得 的 ， 测 试 样本 用 属性 向 量 来 描述 病人 。4 种 疾病 
的 不 同 之 处 在 于 类 的 数量 和 任务 的 困难 程度 (例如 ,数据 中 的 噪声 、 可 用 信息 的 
相关 性 和 可 靠 性 ) 。 





表 8.1 在 4 种 疾病 中 ， 两 种 分 类 器 的 准确 率 和 医生 准确 率 的 比较 























贝 叶 斯 分 类 器 决策 树 职业 医师 
原 发 性 肿瘤 0.49 0. 44 0. 42 
乳腺 癌 0.78 0.77 0. 64 
甲状 腺 癌 0.70 0. 73 0. 64 
风湿 病 0. 67 0. 61 0. 56 

















实验 数据 似乎 证 实 了 机 需 学 习 产 生 的 分 类 效果 能 够 与 人 类 专家 相 匹 敌 的 结论 ; 
甚至 看 起 来 要 胜 过 人 类 专家 的 分 类 效果 。 在 多 个 类 别 的 原 发 性 肿瘤 领域 的 优势 也 
许 还 不 起 眼 ,但 是 在 其 他 领域 中 ， 机 带 学 习 的 分 类 能 力 更 好 。 但 遗憾 的 是 ， 这 个 
数据 表格 并 没有 告诉 我 们 分 类 结果 的 差异 。 也 许 标准 差 可 以 帮助 我 们 更 好 地 分 析 
结果 。 当 然 , 还 有 其 他 的 方法 可 以 确定 结果 统计 的 可 靠 性 一 一 在 第 11 章 和 第 12 
章 将 会 介绍 更 多 可 以 使 用 的 方法 。 

结果 是 令 人 鼓舞 的 吗 ? 结果 似乎 令 人 印象 深刻 ,但 我 们 不 能 过 早 下 结论 。 第 
个 问题 是 比较 是 否 公平 ?” 当 样 本 被 表示 成 属性 向 量 ， 对 于 机 器 学 习 程 序 和 分 类 
器 都 是 可 以 使 用 的 ， 但 是 很 难 被 医生 同样 地 利用 。 就 像 医 生 可 以 利用 主观 的 信息 ， 
但 机 器 却 不 能 使 用 一 样 。 在 这 方面 ， 人 类 是 有 某 些 优势 的 ， 这 使 得 机 器 学 习 结 果 
更 令 人 印象 深刻 。 

男 一 方面 ， 该 研究 的 作者 承认 参与 实验 的 医生 不 一 定 是 该 领域 的 顶级 专家 ， 
即 机 器 学 习 只 比 一 般 的 医师 强 。 男 一 个 方面 值得 我 们 注意 的 是 ， 这 项 研究 是 在 20 
世纪 80 年 代 进 行 的 ， 那 时 的 诊断 工具 并 没有 现代 使 用 的 那么 复杂 。 从 现代 实验 室 
测试 技术 中 很 难说 谁 受 益 更 多 : 人 类 专家 或 机 带 学 习 ? 

除了 分 类 ， 解 释 也 是 必要 的 。 对 于 医疗 诊断 ， 仅 仅 是 分 类 准确 率 是 不 够 的 ; 
更 准确 地 说 ， 它 不 能 够 说 明 诊 断 是 正确 的 。 如 果 仅 有 “机 器 说 是 ”这 一 诊断 支 
持 ， 则 病人 很 难 同 意 手术 。 也 就 是 说 “机 器 的 准确 率 比 医生 平均 高 几 个 百分点 ” 
这 个 陈述 不 可 能 说 服 病人 。 
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一 个 理智 的 病人 需要 的 是 一 个 令 人 信服 的 解释 ， 为 什么 手术 优 于 保守 治疗 ? 
表 8. 1 中 医生 通常 能 逐条 记录 什么 证 据 支 持 具 体 的 诊断 和 原因 ， 以 及 在 这 种 特殊 
情况 下 建议 的 治疗 方案 是 人 什么、 为什么。 不幸 的 是 ， 基 本 的 机 器 学 习 技 术 并 不 擅 
长 解释 它们 的 决定 (也许 除了 决策 树 以 外 )。 这 还 需要 软件 进行 自动 推理 ， 当 然 
这 超出 了 这 本 书 的 范围 ， 就 不 在 这 里 更 述 了 。 

度量 置信 和 度 的 需求 。 还 有 一 个 需要 注意 的 问题 。 在 前 面 昔 节 提 到 的 大 部 分 分 
类 器 只 是 给 一 个 最 后 的 预测 ， 例 如 ,“ 样 本 属于 类 别 77”。 有 时 医生 (RINA) 需 
要 知道 更 多 的 信息 。 例 如 , “给 出 的 判断 绝对 准确 吗 ?” 或 “只 是 比 其 他 类 稍微 像 
一 些 ?” 如 果 是 这 样 ， 哪 些 其 他 类 还 应 该 考虑 ? 

换 名 话说， 医学 领域 通常 要 求 分 类 器 能 够 告诉 我 们 对 于 分 类 结果 的 置信 和 度 有 
多 少 。 例 如 ， 这 些 分 类 器 应 该 说 “这 个 样本 属于 Cl 的 概率 为 0.8， 属 于 C5 的 概 
率 为 0.7”。 概 率 可 以 通过 贝 叶 斯 分 类 器 准确 地 计算 出 来 ， 从 神经 网 络 也 可 以 获得 
类 似 的 信息 。 然 而 ， 这 两 种 方法 仍然 无 法 提供 解释 。 男 一 方面 ， 决 策 树 可 以 提供 
某 种 解释 。 至 于 确信 和 度 ， 只 能 增加 额外 的 功能 ， 这 里 我 们 就 不 再 研究 了 。 

文化 障碍 。 机 器 学 习 在 医学 诊断 中 得 到 的 令 人 鼓舞 的 结果 没 能 打动 医生 ， 这 
里 还 有 其 他 原因 。 这 个 原因 就 是 一 些小 小 的 收视 ,我 们 也 可 以 称 它 为 文化 障碍 。 
医生 当然 不 喜欢 被 告知 他 们 是 多 么 容易 被 计算 机 所 取代 ， 因 此 在 某 种 程度 上 我 们 
可 以 理解 医生 不 赞同 的 行为 。 这 就 是 为 什么 在 早期 的 机 需 学 习 应 用 中 ， 许 多 医生 
并 不 急于 开发 必要 的 软件 。 

当然 这 是 一 种 误解 ， 机 器 学 习 的 目的 并 不 是 替换 人 类 专家 ， 它 只 是 提供 建议 ， 
最 后 诊断 决策 仍然 〈 即 使 在 法 律 条 款 中 ) 取决 于 病人 的 主治 医生 。 不 过 ， 这 些 建 
议 都 应 当 很 有 价值 。 例 如 ， 分 类 需 可 以 提醒 医生 一 些 额 外 的 、 没 有 想到 的 并 发 证 
状 〈 病 人 往往 同时 遭受 多 种 问题 ) ， 它 甚至 可 以 指出 是 否 需要 进行 一 些 特殊 的 额 
外 实验 检验 。 


























































































































会 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 








第 8 章 
儿 个 有 帮助 的 案例 

















e 关于 本 节 中 给 出 的 实验 结果 ， 为 什么 不 能 总 结 出 分 类 器 超越 了 人 类 专家 的 
结论 ? 

。 除了 分 类 准确 度 ， 医 学 诊断 还 需要 什么 ? 

e 讨论 基于 机 器 的 诊断 的 局 限 性 ， 提 出 一 个 使 机 器 学 习 在 医学 领域 中 得 到 应 
用 的 合理 建议 。 





8.6 文本 分 类 


假设 有 一 个 量 很 大 的 文本 文档 ， 读 者 需要 判断 哪些 包含 自己 感 兴趣 的 主题 。 
如 果 文 本 量 真 的 非常 多 ， 那 么 是 没有 办 法 进行 手工 分 类 的 。 然 而 ， 受 以 上 应 用 案 
例 的 启发 ， 可 以 先 选 择 文档 的 一 部 分 ， 阅 读 它 们 并 分 配 类 标签 ( 正 例 和 负 例 ) , 
然后 训练 一 个 分 类 器 用 于 自动 分 类 。 

属性 。 一 种 常见 的 用 来 描述 文档 的 方法 是 利用 它 所 包含 词语 的 频率 。 每 个 属 
性 代表 一 个 词 ， 它 的 值 是 它 在 文本 中 出 现 的 频率 。 例 如 ， 在 一 个 文档 中 一 共有 
983 个 词语 ， 其 中 “分 类 器 ”( ”classifier”) 可 能 出 现 了 5 次 ,那么 它 的 频率 就 是 
5/983 =0. 005, 

通常 词汇 表 包 含 成 千 上 万 的 词语 ， 所 以 属性 向 量 会 很 长 。 然 而 ， 由 于 只 有 一 
小 部 分 可 能 会 包含 在 文档 中 ， 因 此 大 多 数 属性 的 值 为 零 。 简 单 的 使 用 方法 是 只 使 
用 词汇 表 的 一 个 子 集 ， 如 1000 个 最 常用 的 单词 。 

类 标签 。 训 练 样本 的 类 别 确定 是 比较 难 的。 即使 我 们 只 想 要 一 些 非常 容 
易 被 归 为 计算 机 科学 类 别 的 文档 ,但 可 能 存在 一 些 文档 相 比 于 其 他 类 别 与 这 
一 类 更 相关 的 情况 ， 因 此 对 于 一 个 文档 是 否 属于 该 类 别 并 不 是 那么 容易 确定 。 
例如 ， 一 个 非常 明确 的 情况 是 : 一 个 处 理 算 法 分 析 的 科学 论文 ; 另 一 个 是 不 
那么 相关 的 文档 ， 只 会 提 到 一 些 算法 比较 的 研究 ; 最 后 一 个 文档 就 是 流行 杂 
志 中 的 一 篇 文章 。 

处 理 这 种 情况 的 一 种 方法 是 “评分 ”类 标签 。 例 如 ， 如 果 文 档 确定 是 相关 
的 ， 则 这 个 类 评分 为 2; 如 果 只 是 有 点 相关 ， 则 为 1; 仅 当 它 是 完全 无 关 的 ， 这 个 
类 评分 为 0。 通 过 这 种 方法 用 户 可 以 自己 决定 在 给 定 的 应 用 中 什么 级 别 的 相关 性 
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是 必需 的 。 

关键 点 评 。 大 量 的 属性 使 学 习 的 计算 代价 非常 昂贵 。 特 别 是 使 用 决策 树 时 ， 
要 分 别 计算 每 个 属性 的 信息 增益 ， 这 意味 着 成 千 上 万 的 属性 需要 在 每 个 测试 中 都 
进行 分 析 。 当 样本 量 极 大 时 ， 这 些 计算 需要 花费 大 量 的 时 间 。 基 于 类 似 考虑 ， 贝 
叶 斯 分 类 融和 神经 网 络 的 计算 代价 也 被 看 作 是 非常 昂贵 的 。 

或 许 有 人 会 说 使 用 简单 一 些 的 -NN 分 类 带 或 线性 分 类 带 就 可 以 降低 成 本 。 然 
而 ， 我 们 又 要 面 对 另 一 个 困难 : 对 于 每 个 给 定 主题 ， 绝 大 多 数 的 属性 都 是 无 关 的 ， 
这 种 情况 降低 了 这 两 种 分 类 需 的 实用 性 。 

多 标签 样本 问题 。 在 前 面 章节 讨论 的 案例 中 都 假定 每 个 样本 都 只 对 应 一 个 类 
标 。 然 而 ， 在 这 个 案例 中 每 个 文档 可 以 同时 属于 两 个 或 两 个 以 上 的 (有 时 更 
多 ) 类 。 

处 理 这 种 情况 最 常用 的 方法 是 对 每 个 类 生成 不 同 的 分 类 名。 每 当 一 个 新 的 文 
档 需要 被 分 类 时 ， 那 么 将 文档 的 属性 向 量 同时 提交 到 所 有 分 类 器 ， 它 们 中 的 一 些 
将 返回 “1”( 即 文档 属于 相应 的 类 ) ， 其 他 则 返回 “0”。 

但 是 这 使 得 计算 成 本 更 加 昂贵 ， 因 为 这 需要 训练 数 以 百 计 的 分 类 器 。 由 于 每 
个 分 类 带 的 学 习 过 程 都 是 很 昂贵 的 ， 因 此 最 终 完成 整个 学 习 过 程 的 代价 是 不 可 售 
量 的 。 

另外 ， 类 之 间 并 不 是 相互 独立 的 。 至 少 其 中 存在 着 子 类 或 其 他 类 ， 这 样 就 可 
以 形成 一 个 类 的 层次 结构 。 这 意味 着 相应 的 分 类 器 也 许 不 应 该 以 完全 独立 于 其 他 
分 类 需 的 方法 去 训练 。 
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会 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 蕊 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 在 文本 分 类 案例 中 如 何 描述 样本 ? 为 什么 说 属性 向 量 会 非常 长 ? 

e 本 节 中 “等 级 标签 ”是 什么 意思 ? 

© 是 什么 让 训练 文本 分 类 器 变 得 非常 昂贵 ? 
o 讨论 多 标签 样本 的 问题 。 
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8. 7 


H ’ 


(Kubat) 等 人 完成 的 。 睡 眠 分 类 任务 ”“ 和 脑 机 接口 ”的 机 器 学 习 应 用 也 都 是 
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总 结 和 历史 简 评 


能 用 于 学 习 的 样本 数量 是 由 应 用 本 身 决 定 的 。 在 某 些 领域 样本 十 分 丰富 ， 
如 那些 可 以 从 数据 库 中 自动 提取 的 应 用 。 某 些 领 域 样本 是 稀有 和 昂贵 的 ， 
就 像 石油 泄漏 案例 中 的 数据 。 

我 们 可 能 完全 不 知道 哪些 属性 是 重要 属性 。 例 如 ， 在 石油 泄漏 案例 中 ， 通 
过 图 像 处 理 技术 可 以 获取 无 数 的 属性 用 来 描述 形状 和 其 他 特征 。 

在 某 些 领域 ， 真 正 重要 的 属性 是 模糊 的 或 者 无 法 以 合理 的 成 本 获得 。 所 以 
训练 仅 能 使 用 那些 可 以 获得 的 属性 ， 就 算 分 类 需 的 性 能 可 能 也 因此 被 削弱 
也 不 得 不 这 人 么 做 。 

在 脑 机 接口 案例 中 ， 只 要 大 多 数 的 判断 正确 就 足够 了 : 在 这 种 情况 下 光标 
就 能 落 在 预期 的 矩形 中 。 我 们 可 以 看 到 的 最 大 化 分 类 准确 率 可 能 不 是 必 
需 的 。 

在 多 类 应 用 领域 ， 错 误 率 是 无 法 完全 描述 分 类 噩 行为 的 。 通 常 一 些 类 几乎 
可 以 被 完全 识别 ， 而 有 些 类 则 出 现 了 问题 。 因 此 ， 除 了 要 知道 分 类 需 的 平 
均 性 能 ， 重 要 的 是 还 要 知道 分 类 需 在 每 个 类 上 的 性 能 。 

在 某 些 领域 ， 我 们 还 希望 能 够 对 最 后 的 结论 进行 解释 。 高 的 分 类 准确 率 并 
不 能 满足 我 们 的 需要 ， 如 医疗 诊断 中 涉及 的 内 容 。 

假 阳 性 错误 的 代价 不 同 于 假 阴性 错误 的 代价 。 在 石油 泄漏 问题 中 ， 为 海洋 
溢 油 付出 的 代价 难以 用 金钱 来 描述 。 

许多 应 用 都 致力 于 最 小 化 错误 率 , 但 是 有 时 错误 率 不 能 解释 一 切 。 

另 一 个 重要 的 需求 是 : 用 户 要 有 可 能 通过 参数 来 权衡 假 阳 性 和 假 阴 性 的 比 
率 〈 在 石油 泄漏 领域 问题 中 提 及 的 ) 。 





































































































历史 简 评 。 表 8. 1 的 结果 是 来 自 于 科 诺 年 科 ”( Kononenko) 等 人 的 一 个 项 
他 们 参考 了 一 个 很 久 以 前 他 们 自己 的 项 目 。 石油 泄漏 案例 是 库 巴 特 * 
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Ea 


巴特 等 人 完成 的 。 文 字 识 别 这 个 问题 在 计算 机 视觉 领域 已 经 进行 了 几 十 年 的 研究 ， 
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RE (Mori) 等 人 第 一 次 从 机 器 学 习 的 角度 开发 文字 识别 系统 。 文 本 分 类 任务 
是 路 易 斯 (Lewis) MIR (Gale) 最 先 开始 研究 的 。 

这 6 个 应 用 程序 ， 本 书 的 作者 参加 了 两 个 。 介 绍 作者 的 工作 并 不 是 为 了 展示 
其 让 人 惊叹 的 学 识 和 在 该 领域 不 可 估量 的 贡献 。 相 反 地 ， 事 实 是 ， 如 果 你 在 项 目 
中 工作 很 长 一 段 时 间 ， 除 了 珍惜 这 些 工作 外 也 会 有 更 深 的 认识 ,介绍 这 些 案 例 远 
比 那些 阅读 文献 的 方法 更 适合 于 教学 。 






































8.8 -巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 














1. 假设 你 知道 训练 集中 的 某 些 类 标的 正确 性 是 不 确定 的 。 你 会 建议 将 这 
“不 可 靠 ”的 样本 移出 训练 集 吗 ? 你 在 考虑 的 时 候 ， 不 要 忘记 一 些 预 分 类 

样本 将 被 用 作 测试 样本 来 评估 分 类 需 的 性 能 。 

2. 讨论 在 某 些 领 域 用 户 为 什么 不 愿 接受 机 带 学 习 工 具 。 提 出 解决 的 方法 ， 或 
至 少 能 够 降低 他 们 疑虑 和 担忧 的 方案 。 

3. 8.2 市 提 到 了 一 种 k-NN 分 类 需 控 制 两 种 错误 〈 假 阴性 和 假 阳 性 ) 的 简单 
机 制 。 提 出 一 种 适用 于 贝 叶 斯 分 类 顺和 神经 网 络 的 类 似 机 制 。 你 将 如 何在 
一 个 线性 分 类 器 中 实现 这 个 机 制 ? 

4. 在 本 章 中 讨论 的 多 个 案例 中 ,减少 无 关 属 性 和 元 余 属性 的 数量 是 必要 的 ， 
其 主要 是 通过 决策 树 来 完成 的 。 请 从 前 面 章节 介绍 的 技术 中 建议 另 一 种 方 
法 ， 并 讨论 其 优点 和 缺点 。 

5. 假设 要 实现 一 个 程序 ， 在 一 个 一 字 棋 游戏 中 ， 判 断 一 个 给 定 的 位 置 是 否 可 
以 获得 全 局 胜利 〈 见 图 8. 7) ， 你 会 用 什么 作为 属性 ”如何 收 集训 练 样本 ? 
对 收集 数据 中 的 噪声 有 什么 评价 ? 你 会 使 用 什么 分 类 器 ? 可 能 面 对 的 困难 
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图 8.7 一 字 棋 游戏 : 一 行 或 一 列 或 对 角 连 成 一 条 线 


上 机 实验 








1. 一 些 用 于 机 器 学 习 实验 的 数据 集 可 以 在 国家 标准 与 技术 研究 院 (NIST) 的 
网 站 上 找到 ， 找 到 这 个 网 站 并 尝试 一 些 新 的 应 用 案例 。 

2. 从 互联 网 上 找到 关于 美国 50 个 州 人 口 统计 的 网 站 。 设 置 一 个 输出 变量 ， 
如 果 这 变量 的 值 高 于 美国 平均 水 平 就 视 为 正 的 ， 和 否则 为 负 的 ， 从 而 将 每 个 
州 构成 一 个 样本 。 根 据 网 站 提供 的 信息 ， 确 定 用 来 描述 样本 的 属性 ， 并 用 
这 些 样本 数据 训练 分 类 器 ， 利 用 分 类 器 预测 变量 的 输出 值 。 
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面 对 困 难 的 问题 ， 人 们 常常 会 组 织 一 次 头脑 风暴 会 议 来 找寻 解决 方法 。 在 这 
会 议 上 ， 来 自 不 同 领域 的 专家 们 会 共享 他 们 的 知识 ， 从 各 自 的 视角 提出 可 以 互 
补 的 观点 ， 进 而 启发 彼此 ， 得 到 具有 原创 性 的 解决 方案 。 同 样 地 ， 在 机 器 学 习 问 
题 中 ， 也 可 以 进行 类 似 的 活动 。 我 们 可 以 创建 一 组 分 类 器 ,使 它们 中 的 每 一 个 都 
与 其 他 的 有 点 儿 不 同 。 当 需要 对 目标 类 进行 投票 时 ， 所 有 分 类 器 的 “集体 智慧 ” 
能 够 弥补 单个 分 类 器 出 现 的 缺陷 。 

本 章 介 绍 了 用 数据 归纳 出 这 一 系列 分 类 器 的 机 制 。“ 分 类 器 集合 ”能 有 如 此 
高 性 能 的 表现 是 靠 着 一 种 被 称 为 “ 装 袋 (Bagging)” 的 简单 方法 。 在 此 基础 上 ， 
我 们 也 可 以 采取 更 加 复杂 的 “Boosting” 算 法 及 其 相关 变种 算法 ， 如 “ 层 释 
(Stacking)” 等 方法 。 


























9.1 “ 装 袋 ” 方 法 (Bagging) 


为 了 简化 算法 描述 过 程 ， 我 们 首先 对 限制 条 件 进行 设置 ， 只 进行 两 类 分 类 ， 
并 规定 每 个 样本 只 能 为 正 或 为 负 ， 最 终 所 有 的 分 类 天 都 是 通过 一 组 训练 数据 集 获 
得 的 。 

基本 原理 。“ 装 袋 ”方法 通过 引入 一 组 分 类 需 来 完成 学 习 。 给 出 一 个 样本 ， 
所 有 的 分 类 融 都 并 行 地 工作 ， 并 对 这 一 个 样本 各 自 标 定 类 别 。 一 个 “主管 分 类 
器 ”负责 收集 这 些 分 类 信息 ， 选 择 出 现 次 数 最 多 的 类 标 来 标记 此 样本 。 

我 们 假定 每 一 个 参与 类 标 投票 的 分 类 器 分 别 从 不 同 的 方向 或 角度 完成 了 识别 
任务 ， 这 个 分 类 器 组 〈 也 称 为 “投票 组 合 " ) 的 结果 一 定 比 一 个 单独 的 分 类 器 得 
到 的 结果 要 好 。 

投票 组 合 的 介绍 。 表 9. 1 列 出 了 Bagging 算法 的 工作 原理 。 从 原始 的 训练 集 T 
中 创建 一 定数 量 、 相 同 大 小 的 训练 子 集 ，TH ，7,，…，7,。 当 训练 子 集 T, 被 创建 
Ja, Bagging 算法 会 为 其 分 配 一 个 分 类 需 C,。 关 于 C;， 前 面 章 节 中 提 到 的 任何 一 种 
学 习 算 法 都 可 以 。 我 们 需要 注意 的 是 ， 最 开始 的 Bagging 算法 是 假设 使 用 了 相同 的 
分 类 絮 ( 即使 用 了 相同 的 指定 参数 的 决策 树 ) 。 





















































表 9.1 Bagging 算法 


输入 :训练 集 7 和 用 户 选 择 的 分 类 吉 。 

1. 使 用 随机 有 放 回 的 抽样 方法 ， 从 数据 集 TP ONE PURSE T, Tn, +, oT, 其 

中 每 个 训练 子 集中 样本 的 数量 是 均等 的 。 

2. 对 每 个 7 引入 一 个 分 类 器 C，( 其 中 i=1, =, n) 。 

3. 当 出 现 一 个 新 样本 时 ， 将 它 同时 交 给 所 有 的 C;,， 并 且 ， 让 每 一 个 分 类 器 C, 都 对 这 
个 样本 的 类 别 进 行 投 票 。 

4. 一 个 “主管 分 类 器 ”来 标记 其 中 哪个 类 获得 了 最 多 的 投票 。 





























Bootstrapping 方法 。 现 在 ， 我 们 再 了 解 一 下 训练 集 T, 的 选择 方法 。 首 先 要 保 
证 每 个 样本 都 有 同等 的 机 会 被 选择 。 一 旦 某 个 样本 被 选择 到 训练 集 T, 中 ， 它 会 被 
“ 反 送 (returned)” 回 了 7， 从 而 该 样本 将 会 与 其 他 样本 以 同等 的 概率 参与 到 训练 集 
7 的 样本 选择 中 。 对 于 一 个 包含 Y 个 样本 的 训练 集 7， 这 个 过 程 将 重复 次， 该 
过 程 被 称 作 “Bootstrapping”。 

可 以 看 到 ， 一 个 样本 可 能 在 也 中 出 现 多 次 ， 也 可 能 不 出 现在 7, 中 。 这 意味 着 
每 一 个 7 包含 NN 个 样本 (可 能 存在 重复 样本 ), 但 各 个 了 是 不 同 的 。 从 而 使 得 每 
个 分 类 需 将 针对 学 习 问 题 的 不 同方 面 进行 研究 。 

它 为 什么 有 效 ? 图 9.1 解释 了 投票 机 制 是 如 何 降低 错误 率 的 。 样 例 中 一 共 使 用 
了 3 个 分 类 名。 假设 分 类 器 的 错误 率 较 低 ， 每 一 个 分 类 吉 可 能 会 在 检测 不 同 的 样本 
时 犯错 ， 在 这 次 试验 中 ， 一 个 样本 最 多 被 错 分 一 次 ， 另 外 两 个 分 类 吉 给 出 的 类 标 是 
正确 的 。 那 么 结果 就 是 : 一 个 分 类 噩 偶然 犯 的 错误 将 会 被 其 他 的 分 类 顺 纠 正 。 



































KH: @eeeeeeeeeeeee000 : 


HD: eeeeeeeeeee00coeee 


@ 正确 分 类 的 样 例 
O ”错误 分 类 的 样 例 


图 9.1 用 3 个 分 类 器 对 17 个 样 例 进行 分 类 。 每 个 分 类 器 都 有 3 个 各 不 相 
同 的 样 例 分 错 了 类 ， 这 些 错误 可 以 通过 投票 的 方式 消除 
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当然 了 ， 实 际 状 况 并 没有 这 么 好 。 如 果 有 一 个 样本 被 3 “Par tt PS A 
误 地 分 类 ， 那 么 结果 会 将 这 个 样本 分 到 错误 的 类 。 但 是 ， 增 加 分 类 融 的 数目 ， 就 
能 减少 这 种 分 类 错误 的 出 现 概 率 。 要 注意 的 是 ， 当 各 个 分 类 需 在 互 不 相同 的 样 例 
上 出 错时 ，Bagging 算法 往往 能 够 取得 好 的 结果 。 

一 些 见解 。 实 际 经 验 显 示 ，Bagging 技术 在 单个 分 类 器 的 错误 率 小 的 情况 下 能 
取得 更 好 的 结果 。 见 表 9. 1， 只 要 有 足够 多 的 分 类 如， 某 个 分 类 顺 所 犯 的 错误 被 
其 他 分 类 需 纠 正 的 可 能 性 就 会 很 大 。 

但 是 ， 在 单个 分 类 器 错误 率 很 大 的 情况 下 ，Bagging 技术 就 不 能 有 很 好 的 结果 
了 。 当 分 类 需 的 数目 多 到 某 一 特定 值 之 后 ， 单 个 分 类 需 的 错误 率 即 便 依然 很 高 ， 
这 些 错 误 也 能 被 纠正 。 根 据 大 数 定律 ， 潜 在 问题 的 每 个 方面 都 会 表现 出 来 。 该 方 
法 唯一 的 缺陷 是 为 了 实现 高 准确 率 的 识别 ， 要 引入 的 分 类 需 数目 太 多 。 

从 概念 上 讲 ， 这 种 使 用 了 大 量 的 分 类 融 的 方法 会 有 很 大 的 随机 性 。 图 9. 1 让 
我 们 意识 到 ， 要 是 引入 的 分 类 需 在 性 能 上 不 是 完全 彼此 独立 ， 而 是 可 以 相互 补充 
的 话 ， 就 可 以 得 到 更 好 的 结果 。 这 种 工作 机 制 将 在 后 面 的 章节 详细 叙述 。 





















































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
你 认为 是 什么 原因 使 得 一 组 分 类 器 的 投票 结果 比 单独 的 分 类 器 要 好 ? 在 什 
么 状况 下 这 种 投票 机 制 会 失效 ? 
e 单个 分 类 器 是 如 何 被 引入 到 装 袋 方法 中 的 ? 


e “Bootstrapping” 7 AY 1 A? 




















9.2 夏 皮 尔 提 升 (Schapire’s Boosting) 





AE Bagging 方法 有 非常 好 的 结果 ， 但 它 依 然 存在 一 个 严重 缺陷 : 参与 投票 的 
分 类 需 之 间 是 彼此 独立 的 ， 使 用 的 数据 都 是 随机 选择 的 。 我 们 可 以 设计 一 个 更 聪 
明 ， 也 更 加 有 效 的 机 制 ， 使 分 类 器 之 间 呈 现 互补 状态 。 例 如 ， 构 建 投 票 分 类 器 组 
时 ， 每 一 个 分 类 器 都 选择 不 易 被 其 他 分 类 器 感知 的 样 例 进行 训练 。Schapires 














Boosting 方法 便 是 以 这 种 思想 为 基础 创建 的 。 

3 个 互补 分 类 器 介绍 。 假 设 有 一 个 随机 子 集 T, eT (T, 含 m 个 样本 )， 用 它 来 
训练 出 第 一 个 分 类 絮 C, 。 当 在 整个 训练 集 了 上 面 测试 这 个 分 类 器 的 时 候 ， 它 肯 
会 错 分 某 些 样本 。 

假设 我 们 现在 又 创建 了 男 一 个 包含 m 个 样本 的 训练 子 集 T, eT, Xm 个 样本 
中 有 50% 来 自 于 被 分 类 需 C, 正确 分 类 的 样本 ,， 男 外 50% 来 自 于 被 错误 分 类 的 样 
本 。 这 就 意味 着 用 分 类 器 C RRI T, 中 的 样本 得 到 的 结果 不 是 很 好 ， 甚 至 强行 
用 分 类 器 C, 进行 分 类 的 话 ， 得 到 的 结果 像 是 随机 分 类 的 结果 。 因 此 ， 我 们 用 训练 
R T, 训练 出 一 个 新 的 分 类 天 C,。 
由 于 C, 和 C, 这 两 个 分 类 器 是 用 不 同 的 样本 训练 而 来 的 ， 因 此 它们 标记 特定 
样本 的 倾向 性 也 是 不 一 致 的 ， 但 我 们 依然 需要 一 个 新 的 决策 器 。 这 时 ， 我 们 要 创 
建 第 3 PIATE T, T, 的 样本 只 从 C, C 两 个 分 类 器 给 出 的 判断 结果 不 一 样 
的 样本 中 选取 ， 然 后 用 T 训练 第 三 个 分 类 器 C; 。 

该 方法 的 原理 在 表 9. 2 中 用 伪 代 码 进行 了 总 结 。 当 得 到 一 个 新 样本 时 ， 主 管 
分 类 天 采集 这 3 个 分 类 器 推荐 的 类 标 ， 并 且 返 回 得 到 票数 最 多 的 那个 类 。 

理想 状况 是 ， 每 一 个 训练 集 T, 都 有 相同 的 大 小 ， 都 有 m 个 样本 。 
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表 9.2 Schapire’s Boosting 算法 








输入 : 训练 集 T， 用 户 选择 的 分 类 器。 

1. 创建 一 个 随机 训练 子 集 7 ， 用 它 训练 分 类 器 C 。 

2. 创建 训练 子 集 也 ， 并 确保 C, DARE T, EMA 50% WERK, M T, 训练 分 类 器 C,。 
3. HE T, C MC, 在 7 中 的 样本 上 给 出 了 不 同 的 识别 结果 ， 并 用 T 训练 C,。 

4. 使 用 投票 法 ， 以 少数 服从 多 数 的 原则 进行 分 类 。 
























































递归 实现 。 刚 才 介 绍 的 规则 可 以 采用 递归 的 方式 实现 ， 如 图 9.2 所 示 。 虚 线 
和 矩形 中 的 是 得 到 的 分 类 需 三 元 组 ， 将 这 个 三 元 组 看 作 一 个 独立 的 分 类 融 。 紧 接着 ， 
创建 一 个 新 的 训练 集 7 ， 要 求 三 元 组 分 类 器 对 7 进行 分 类 的 错误 率 为 50% ， 并 
用 它 训 练 一 个 新 的 分 类 器 C4,。 最 后 ， 选 取 分 类 器 C, 和 三 元 组 分 类 咒 给 出 不 同类 
标的 样本 作为 新 的 训练 子 集 7; 来 训练 得 到 分 类 需 C;。 图 9.2 展示 了 这 种 投票 方法 
的 层次 结构 。 
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aama | | ass | 








图 9.2 Schapire’s Boosting 的 递归 应 用 ， 主 管 分 类 器 A 组 合 了 分 类 器 1 ~3 的 投票 ; 
然后 ， 主 管 分 类 器 B 组 合 了 A 与 分 类 器 4 和 5 的 投票 

















理解 投票 机 制 的 工作 原理 对 于 Boosting 的 学 习 是 非常 关键 的 。 例 如 ， 如 果 分 
ek 1 ~3 都 返回 0， 那 么 A 也 会 返回 0。 然 而 ， 如 果 分 类 器 4 与 5 返回 1， 那 么 主 
B 就 会 否决 A 的 结果 ， 从 而 B 的 结果 就 会 是 1。 尽 管 5 个 分 类 关中 的 3 个 返回 0， 
整个 结构 的 结果 仍 将 是 1。 

需要 注意 ， 使 用 单 层 递归 时 ， 分 类 器 的 总 数 是 3 +2 =5。 当 然 ， 可 以 重复 使 用 
这 个 规则 ， 重 复 一 次 ， 则 用 到 的 分 类 需 个 数 变 为 5 +2 =7。 以 此 类 推 ， 假 设 递归 了 
Nx 次 ,那么 参与 的 分 类 器 总 数 就 会 是 2Vx +3。 

性 能 考虑 。 假 设 每 一 个 生成 的 分 类 器 的 错误 率 都 低 于 s。 数 学 界 已 经 证 明 投 
票 三 元 组 的 错误 率 将 会 低 于 38s” - 2s ， 这 个 数值 总 是 小 于 e 的 。 例 如 ，s =0.2, 
WBA 32° -28° =3 .0.04 -2 + 0.008 =0.104; 如 果 e=0.1, 那么 3e -28° = 






































0. 03 -0. 002 =0. 028, 

换言之 ，Schapire's Boosting 方法 提升 了 单个 分 类 器 的 性 能 。 但 是 当 第 一 个 投 
票 三 元 组 的 错误 率 为 ( 见 上 文 ) 3e? -2e = 0. 104 时 ， 其 他 分 类 器 (4 和 5) 就 很 
难得 到 同样 低 的 错误 率 了 。 解 决 这 个 问题 的 一 个 方案 是 将 每 一 个 分 类 器 ( 如 分 类 
器 4 和 5) 都 做 成 一 个 三 元 组 ， 如 图 9. 3 所 示 。 在 这 种 情况 下 ， 送 代 Ni 次 后 参与 
投票 的 分 类 器 个 数 将 会 是 3 






















主管 分 类 器 








| 分 类 器 3 





分 类 器 4 





[分 类 器 6 | 分 类 器 7 | 分 类 器 9 


图 9.3 Schapire’s Boosting 的 另 一 种 递归 应 用 实现 








在 这 里 我 们 要 明确 一 点 ， 虽 然 每 增加 一 层 迭 代 都 会 降低 错误 率 ， 理 论 上 可 以 
将 错误 率 降 到 0， 但 是 实际 上 是 无 法 实现 的 ， 下 文 我 们 将 会 讲 到 相关 原因 。 

制约 条 件 。 如 何 找到 后 续 的 训练 子 集中 的 样本 是 最 主要 的 难题 。 首 先 ， 这 些 
样本 必须 满足 限制 条 件 。 如 上 文 所 述 ， 为 了 产生 第 二 个 分 类 器 C, ， 我 们 要 创建 的 
训练 子 集 T, 必须 满足 : 使 前 一 个 分 类 融 C, 的 正确 率 仅 为 50% 。 

这 一 点 说 起 来 容易 ， 实 现 却 很 难 。 例 如 ， 如 果 整 个 训练 集 了 有 100 个 样本 ， 
第 一 个 分 类 需 的 错误 率 是 10% ， 那 么 意味 着 我 们 仅 有 10 个 被 错 分 的 样本 ， 这 10 
个 样本 再 加 上 10 个 被 正确 分 类 的 样本 可 以 用 来 产生 7,。 这 就 意味 着 T, 不 能 超过 
20 个 样本 。 同 理 ， 对 于 第 三 个 训练 子 集 T, 来 说 ， 它 应 该 只 包含 C， AC, 给 出 的 类 
标 不 一 致 的 样本 ， 那 么 找到 m 个 符合 条 件 的 样本 是 不 可 能 的 。 

最 后 ， 即 便 我 们 成 功 地 创建 了 这 样 的 3 个 训练 子 集 ， 也 会 发 现 相 同 的 递归 规 
则 无 法 再 使 用 下 去 。 因 为 如 果 继 续 下 去 ， 我 们 需要 的 样本 集 将 会 大 到 无 法 想象 
(基本 上 不 可 能 获得 ) 。 












































P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© Schapire’s Boosting 方法 中 用 来 产生 每 个 分 类 器 的 训练 子 集 是 如 何 获得 的 ? 
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o 请 解释 递归 应 用 这 个 规则 的 两 种 方式 。 如 果 使 用 了 Ni 次 递归 ， 则 需要 生成 
多 少 个 分 类 器 ? 阐述 取得 最 终 分 类 结果 的 投票 机 制 。 

© 与 单个 分 类 器 的 错误 率 相 比较 ， 最 终 分 类 结果 的 错误 率 会 怎样 ? 

阐述 实际 应 用 中 Schapire’s Boosting 方法 的 制约 因素 ,为 什么 不 能 找到 足够 

的 样本 ? 


° 
ae 





9.3 Adaboost——Boosting 的 实用 版 本 


Bagging 算法 的 主要 缺陷 是 它 的 随机 性 : 算法 中 的 每 一 个 分 类 器 在 生成 时 ， 都 
是 完全 独立 于 其 他 分 类 器 的 。 在 Schapire’s Boosting 方法 中 ， 这 种 随机 性 大 大 降低 ， 
但 是 我 们 注意 到 另 一 个 问题 : 在 现实 中 ， 寻 找 满足 第 二 个 和 第 三 个 分 类 器 要 求 的 
相当 数目 的 训练 样本 也 是 不 可 行 的 。 目 前 最 有 可 能 实现 的 Boosting 算法 是 一 种 被 
称 为 Adaboost 的 方法 ， 它 根据 样本 的 概率 分 布 来 训练 样本 ， 这 种 概率 分 布 能 够 使 
整个 “集合 (assembly) ”逐渐 聚焦 于 那些 难以 处 理 的 方面 上 。 

一 般 性 方法 。 与 Schapire 的 方法 相似 ，Adaboost 也 是 逐个 创建 分 类 器 ， 每 一 个 
分 类 器 都 由 不 同 的 训练 子 集 产 生 ， 而 训练 子 集 的 组 成 依赖 于 前 一 个 分 类 器 的 情况 。 
这 两 种 方法 的 主要 区 别 在 于 产生 训练 子 集 的 方法 不 同 。Schapire's Boosting 根据 某 
种 精确 定义 的 条 件 来 选择 样本 ， 而 Adaboost 却 是 根据 概率 分 布 选取 样本 。 每 一 个 
样本 被 选择 的 概率 是 特定 的 ， 所 有 样本 被 选择 的 概率 相 加 必然 等 于 1。Adaboost 使 
用 了 一 种 完全 不 同 的 机 制 ， 旨 在 确保 被 前 面 分 类 器 多 次 误 分 的 样本 成 为 下 一 个 训 
练 集中 一 员 的 可 能 性 更 高 。 另 一 个 不 同 点 是 分 类 器 的 数目 ， 与 Schapire 的 三 元 组 
不 同 ，Adaboost 方法 更 依赖 于 大 量 的 分 类 器 。 准 确 来 说 ，Adaboost 方法 中 的 最 终 识 
别 结果 不 是 用 简单 的 Bagging 投票 实现 的 ， 而 是 使 用 一 种 基于 权重 的 多 数 投票 
机 制 。 

训练 样本 的 选择 概率 。 我 们 提 到 ， 对 于 各 个 训练 子 集 7;， 它 们 是 从 原始 样本 
集 了 中 按照 一 定 的 概率 分 布 选取 的 。 这 里 先 介绍 一 下 这 个 法 则 的 实现 方法 ， 假 设 
第 i 个 样本 被 选择 的 概率 是 p(x,) =0.1， 使 用 随机 数 产生 器 生成 一 个 0.0 ~1.0 之 
间 的 数字 ， 如 果 返 回 的 数字 在 0.0 ~ 0.1 之 间 ,， 那么 此 样本 就 被 选择 ， 和 否则 不 



















































































选择 。 

创建 第 一 个 训练 子 集 T 时 ， 每 个 样本 都 有 相同 的 被 选择 概率 ， 即 如 果 了 包含 
m 个 样本 ,每 个 样本 被 选择 的 概率 都 是 p =1/m。 对 于 训练 子 集 7,， 每 个 样本 被 选 
择 的 概率 会 根据 前 一 个 分 类 器 C, ,的 表现 进行 修改 。 主 要 目的 是 确保 被 前 一 个 分 
类 需 C,_, 错 分 的 样本 出 现在 7, 中 的 可 能 性 更 大 ， 以 便 新 分 类 器 C, 能 够 更 加 关注 前 
一 个 分 类 器 犯错 的 地 方 。 

修改 第 i 个 训练 集 的 概率 。 开 始 时 ，m 个 样本 都 具有 相同 的 概率 ， 即 被 选择 
的 概率 为 p=1/m。 根 据 这 种 概率 p， 生 成 了 第 一 个 训练 集 T,， 并 训练 出 了 第 一 个 
DKA C, 。 然 后 ， 训 练 样本 被 选择 的 概率 会 根据 分 类 器 C, 的 结果 进行 修改 。 具 
体 而 言 ， 被 分 类 器 C, 正确 分 类 的 样本 再 被 选择 的 概率 要 降低 ， 而 被 C, 错 分 的 样 
本 再 次 被 选择 的 概率 会 增加 。 

表 9.3 给 出 了 根据 第 ;个 分 类 带 的 分 类 结果 修改 样本 概率 的 过 程 。 首 先 ， 
Adaboost 计算 了 第 ; 个 分 类 器 的 整体 误差 a;， 作 为 整个 原始 训练 集 的 加 权 误差 和 ， 这 
可 以 通过 对 错 分 样本 概率 求 和 得 到 。 加 权 误差 和 可 用 于 减 小 那些 已 经 被 C, 正确 分 类 
的 样本 概率 。 具 体 来 说 ， 就 是 每 一 个 样本 的 概率 乘 上 概率 B,，B, =s,/(1 -es,)。 





























表 9.3 Adaboost 算法 


输入 : 包含 mm 个 样本 的 训练 集 T， 以 及 用 户 选择 的 分 类 响 。 

1. 令 i=1， 对 于 每 个 x,e7, Sp, (x) =1/m。 

2. 根据 给 定 的 概率 分 布 ， 创 建 包含 m 个 样本 的 子 集 7,， 并 训练 分 类 器 C,。 

3. 将 了 中 样本 zi s 了 在 分 类 器 C 上 测试 。 如 果 C EST x, WMS e,(x;) =1; 否则 ， 
$ e (x) =0。 
1) 计算 s， = È P(x) e; (x;)0 
2) 1#B,=e/(1-e;). 

4. 修改 正确 分 类 样本 的 概率 六,(z) =p; (x)) + Bio 

5. 归 一 化 概率 以 确保 之 pa) =1。 

6. $i=i+1, 返回 第 2 步 ， 除 非 遇 到 终止 条 件 。 
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概率 归 一 化 。 整 个 算法 中 很 重要 的 一 步 是 将 概率 归 一 化 ， 以 确保 它们 的 和 等 
于 1。 概 率 归 一 化 最 简单 的 方法 是 用 概率 的 和 除 以 每 一 个 概率 。 例 如 ， 已 知 如 下 
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概率 的 情况 : 


p, =0.4, p, =0.2, p, =0.2 


这 些 概率 的 总 和 为 : 0.4 +0.2 +0.2 =0.8, FH 0.8 分 别 除 每 一 个 概率 ， 将 获 
得 下 面 的 归 一 化 值 : 


N 


=0.25, p; -H =0, 25 


0.5, p = 


0.4 0. 
Pi =0.8 7 0. 


可 以 非常 清晰 地 看 到 概率 之 和 为 1: 


Co 


Pi +p. +p; =0.5 +0.25 +0.25 =1.0 

一 个 示例 。 表 9. 4 演示 了 Adaboost 修改 样本 概率 的 过 程 。 首 先 ， 每 一 个 样本 
以 相同 的 概率 被 选择 成 为 训练 集 7, 中 的 样本 ， 并 用 它 训练 第 一 个 分 类 融 C, 。 训 练 
完成 后 用 C, 测试 原始 训练 集 7 中 的 每 一 个 样本 。 





表 9.4 一 个 说 明 Adaboost 修改 样本 概率 的 案例 
假设 训练 集 7T 共 包含 10 PER, Bx, =, Xoo Ë 
率 都 设 为 p (x,) =1/m=0.1: 














EF 本 的 总 数 m=10， 所 有 的 样本 概 


Pi(X1) Pi) pi(X3) Pa) Pi(xs) Pi(xe) Poz) Pi(Xs) Pr) pi(xio) 
0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 
根据 概率 分 布 选择 训练 子 集 有 ， 并 用 也 生成 分 类 器 Co 
假设 在 了 7 上 实验 时 ， 分 类 器 C, 正确 将 x, ~x, 分 类 (其 
本 为 xs ~xio(〈 且 e(z) =1)。 
加 权 误 差 通过 下 式 得 出 : 





























Pe (x) =0) ， 错 误 分 类 的 样 

















e= J, pile) +e (x) =0.3 
概率 修改 的 乘 数 可 以 通过 下 式 计算 ， 
Bı =8,/(1 -8,) =0. 43 























概率 修改 公式 为 : 
P(X) =p (x;) DB 





计算 得 到 新 值 (未 归 一 化 ) : 
PX) P(X) P(X3) pt) ps(Xs) P(xz) P(X1) Ps(Xs) P(x) Pr (Xo) 
0.043 0.043 0.043 0.043 0.043 0.043 0.043 0.1 0.1 0.1 
一 化 之 后 ， 其 值 为: 


P(x) pa(Xs) pz) pr) p(Xs) P(Xo) ptr) pn (Hg) Po (Hq) Pr (Xi) 
0.07 0.07 0.07 0. 07 0. 07 0. 07 0. 07 0. 17 0. 17 0.17 


注意 ， 这 10 个 概率 的 和 为 1.0。 进 而 根据 以 上 概率 分 布 从 7 中 选择 出 新 的 子 集 7,， 训 
BABAR Co 














= 

















那些 被 C, 正确 分 类 样本 的 概率 (如 样本 x ~x) WEAR p, a (x) =p; (x) 
Bi 计算， 其 中 e = 7 p(X)ei(Xj)、Bi=si/(1 -2,)。 然 后 将 概率 归 一 化 处 理 以 
确保 它们 之 和 为 1。 

然后 ,创建 第 二 个 训练 子 集 7, ， 训 练 分 类 器 C, ， 并 用 C, 测试 7。 基 于 分 类 器 
C, 的 结果 ， 计 算 es AB, 的 值 ， 并 修改 被 正确 分 类 的 样本 的 概率 。 这 个 过 程 会 一 
直 继 续 下 去 ， 直 到 满足 用 户 预 定义 的 终止 条 件 。 这 个 条 件 可 以 是 分 类 器 达到 某 个 
最 大 允许 的 数目 ， 也 可 以 是 整个 “集合 ”的 分 类 准确 率 达 到 了 某 个 特定 阔 值 ， 也 
可 以 是 其 他 条 件 。 

加 权 多 数 投票 。 一 旦 选 好 了 分 类 器 ， 分 类 带 就 会 并 行 处 理 待 分 类 的 样本 ， 根 
据 分 类 器 的 分 类 结果 对 每 一 个 分 类 器 赋 一 个 特定 的 权重 ， 最 终 的 分 类 结果 会 由 加 
权 多 数 投票 的 方式 得 出 。 最 后 的 结果 不 再 是 用 上 一 节 介绍 的 简单 投票 方式 计算 ， 
而 是 更 进一步 地 ， 给 每 一 个 分 类 器 赋 不 同 的 权重 值 ， 记 作 内， 使 用 一 种 非 民 主 投 
票 机 制 。 

给 定 一 个 样本 ， 每 一 个 分 类 器 都 返回 一 个 类 标 。 最 终结 果 通 过 比较 给 出 正 类 
投票 的 分 类 需 的 权重 之 和 极 ,. 与 负 类 投票 的 分 类 器 的 权重 之 和 到, 得 出 。 

举 一 个 例子 , 假设 有 7 个 分 类 器 ， 其 权重 分 别 为 【0.2，0.1，0.3，0.7， 
0.2，0.9，0.8]。 如 果 前 4 个 分 类 器 返回 值 是 pos， 后 3 个 返回 值 为 neg。 上 一 节 
描述 的 简单 投票 方式 将 会 以 pos 作为 这 个 样本 的 类 标 ， 因 为 pos 类 获得 的 投票 较 
多 。 但 是 ， 加 权 多 数 投票 法 将 把 给 出 正 类 类 标的 分 类 器 的 权重 相 加 ， 得 到 WW, = 
0.2+0.1+0.3+0.7=1.3。 然 后 再 把 给 出 负 类 类 标的 分 类 器 的 权重 相 加 ， 得 到 
Wp =0.2 +09 +0.8 =1.9。 因 为 村 ,.> 匈 ,。， 所 以 主 程序 会 将 这 个 样本 标记 为 负 。 

如 何 获得 每 个 分 类 器 的 权重 。 分 类 器 的 权重 是 根据 它 的 性 能 赋予 的 : 可 靠 性 
越 高 ， 权 重 就 越 大 。 从 另 一 个 角度 讲 ， 如 果 分 类 器 的 错误 率 高 于 准确 率 ， 则 权重 
甚至 可 以 是 负 的 。 在 实际 操作 中 准确 地 赋予 分 类 器 权重 是 很 重要 的 ， 因 此 有 必要 
了 解 一 下 权重 的 确定 方法 。 

其 实 确定 权重 可 以 有 非常 多 的 方案 ，Adaboost 的 作者 给 出 了 用 数学 方法 分 析 
这 些 方案 的 具体 准则 。 其 实 我 们 也 可 以 使 用 第 4 章 介 绍 的 简单 的 感知 器 的 学 习 方 
法 。 刚 开始 的 时 候 给 每 个 分 类 器 相等 的 权重 ， 然 后 不 断 地 用 一 个 接 一 个 的 样本 去 






































































































































197 


198 


机 器 学 习 导 论 


训练 这 个 系统 。 每 一 次 系统 错 分 一 个 样本 ,我 们 就 根据 系统 的 假设 h(x) 和 训练 
样本 的 真实 值 cx) 之 间 的 关系 来 增加 或 减 小 分 类 器 的 权重 。 

当然 也 可 以 使 用 其 他 方法 ， 如 窗口 法 (WINDOW ) ， 此 方法 可 以 很 好 地 找 出 
那些 对 整个 系统 的 性 能 贡献 不 大 的 分 类 器 ( 如 那些 使 用 不 相关 属性 描述 样本 的 分 


KAF) o 





P 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 描述 Adaboost 选择 训练 子 集 7, 的 样本 时 使 用 的 机 制 。 
© 阐述 Adaboost 在 产生 第 ;个 分 类 器 后 ， 是 怎样 修改 每 个 样本 入 选 第 了 ,个 
训练 子 集 的 概率 的 。 
。 阐述 在 决定 一 个 指定 样本 的 类 别 时 ，Adaboost 所 使 用 的 加 权 多 数 投票 的 
原则 。 
。 如 何 确 定 每 个 分 类 器 的 权重 ? 











9.4 Boosting 方法 的 变种 


Boosting 的 本 质 是 结合 几 个 并 不 完美 的 分 类 顺 以 使 它们 彼此 互补 。Schapire 首 
次 提出 了 生成 分 类 器 的 具体 方案 ，Bagging 和 Adaboost 是 目前 最 常用 的 手段 。 

其 实 Boosting 的 实现 方法 是 非常 多 样 的 ， 为 了 更 好 地 了 解 Boosting Hik, AS 
将 介绍 Boosting 方法 中 几 个 重要 的 变种 。 

随机 化 属性 集 。 除 了 用 不 同 的 训练 子 集训 练 每 个 分 类 器 (正如 之 前 Boosting 
介绍 中 所 示 ) ， 我 们 还 可 以 考虑 使 用 相同 的 训练 样本 ， 但 使 用 不 同 的 属性 子 集 来 描 
述 。 也 就 是 训练 样本 集 了 作为 训练 样本 ， 集 合 A 是 用 于 描述 训练 样本 的 属性 集合 。 
代 蔡 随机 选择 样本 训练 集 的 方法 ， 我 们 随机 选择 了 包含 V 个 属性 的 集合 A s4。 
第 ;个 分 类 需 (ie [1, N) 即 从 样本 集 7 中 用 属性 集 4; 来 训练 产生 。 与 之 前 的 
方法 相似 ， 分 类 融 的 输出 通过 加 权 多 数 投票 获得 ， 这 个 权重 通过 感知 句 学 习 获 得 。 













































































这 个 方法 在 具有 高 维 属 性 的 应 用 中 是 非常 有 效 的 ， 特 别 是 当 这 些 属性 中 的 绝 
大 多 数 都 是 宛 余 或 无 关 的 情况 下 。 显 而 易 见 ， 使 用 没有 价值 的 属性 集 产生 的 分 类 
需 的 性 能 将 会 很 差 ， 这 些 分 类 顺 将 获得 很 小 的 〈 甚 至 是 负 的 ) 权重 值 。 

这 个 方法 可 以 与 经 典 的 Bagging 方法 结合 使 用 ， 要 做 到 每 一 个 分 类 需 同 时 使 用 
不 同 的 样本 集 和 不 同 的 属性 集 。 

异 质 Boosting ( Non-homogeneous boosting) 。 到 目前 为 止 介 绍 的 所 有 Boosting 
方法 都 是 假设 分 类 需 是 用 不 同 的 数据 训练 的 ， 但 分 类 需 是 相同 的 。 其 实 我 们 并 不 
一 定 非 要 这 样 做 ， 异 质 Boosting 方法 就 反 其 道 而 行 ， 每 一 个 分 类 器 使 用 相同 的 数 
据 ， 但 使 用 的 机 器 学 习 方 法 不 同 。 这 些 分 类 器 的 输出 再 结合 加 权 多 数 投票 方法 给 
出 最 终结 果 。 

该 方法 的 主要 优点 是 可 以 减少 误差 。 我 们 在 第 10 章 将 会 学 到 ， 任 何 一 个 分 类 天 
的 误差 都 可 以 分 为 两 大 类 。 第 一 类 误差 是 由 数据 引起 的 ， 使 用 不 同 的 训练 样本 集 得 
到 的 分 类 融 模 型 会 存在 一 定 差异 ， 这 会 导致 各 种 错误 。 第 二 类 是 由 于 分 类 央 的 偏好 
性 ， 当 正 负 样 本 分 离 面 是 高 度 非 线性 时 ， 一 个 线性 分 类 器 必然 会 错 分 部 分 样本 。 

值得 关注 的 是 ， 异 质 Boosting 可 以 同时 减少 这 两 类 误差 : 数据 误差 (所 有 的 
Boosting 算法 都 可 以 降低 该 误差 ) 和 分 类 器 偏好 误差 ( 异 质 Boosting 特有 的 优势 ) 。 

BS, HJA Boosting 的 思想 是 得 到 一 组 分 类 器 的 输出 ， 然 后 使 用 加 权 多 数 投票 
获得 最 终 的 分 类 结果 。 这 里 包括 两 层 : 底层 是 基本 分 类 需 ， 上 层 是 主管 分 类 需 组 合 
底层 的 输出 。 需 要 注意 的 是 ， 上 层 管 理 者 本 号 也 是 需要 训练 的 分 类 咒 ， 因 为 这 一 层 
要 解决 的 问题 实质 上 是 一 个 线性 分 类 问题 ， 因 此 可 以 用 简单 的 感知 器 学 习 方法 。 

这 个 原理 可 以 被 泛 化 成 一 种 称 为 层 琶 (Stacking) 的 方法 。 如 前 文 所 述 ， 底 层 
使 用 一 组 不 同 的 分 类 需 ， 上 层 使 用 的 分 类 融 不 一 定 非 要 用 线性 分 类 需 。 事 实 上 ， 
上 层 分 类 需 可 以 是 任意 范式 的 ， 如 贝 叶 斯 、 最 近邻 、 决 策 树 或 神经 网 络 。 在 异 质 
Boosting 中 使 用 的 线性 分 类 器 只 是 众多 可 能 中 的 一 个 。 

同 理 ， 基 层 分 类 器 可 能 来 自 于 不 同 的 范式 ， 甚 至 各 个 分 类 器 仅仅 在 选择 具体 
参数 值 时 略 有 不 同 。 例 如 ， 几 个 决策 树 在 修剪 范围 上 有 所 不 同 。 无 论 如 何 ， 每 一 
个 底层 分 类 器 都 应 当 在 样本 分 类 的 方式 上 体现 出 不 同 。 

表 9.5 简 述 了 该 方法 的 使 用 ， 每 一 行 代表 一 个 分 类 右 ， 这 6 个 分 类 融 分 别 使 
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用 了 不 同 的 机 器 学 习 技术 ， 每 一 列 代表 一 个 训练 样本 。 其 中 ， 如 果 第 i 个 分 类 器 
标记 第 j 个 样本 为 正 的 话 ， 则 第 i 行 j 列 的 值 为 1; 否则 值 为 0。 这 样 ， 每 一 列 就 可 
以 看 作 一 个 用 来 重新 描述 对 应 样本 的 二 值 向 量 。 这 个 新 的 训练 样本 集 使 用 一 个 机 
器 学 习 程 序 处 理 ， 并 使 用 这 些 样本 产生 主管 分 类 需 。 























表 9.5 6 个 基本 分 类 器 给 出 的 类 标 被 用 作 重新 描述 样本 的 属性 ， 
每 一 列 代表 一 个 样本 训练 主管 分 类 器 
































xX, xX, Xx; tee Xin 
分 类 器 1 1 1 0 0 
分 类 器 2 0 0 1 e 1 
分 类 器 3 1 1 0 1 
分 类 器 4 1 1 0 1 
分 类 器 5 0 1 0 e 1 
分 类 器 6 0 0 0 1 
实际 类 别 1 1 0 1 











Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 解释 “随机 化 属性 集 ” 的 含义 。 这 个 方法 的 主要 优点 是 什么 ? 它 是 如 何 与 
经 典 Bagging 结合 的 ? 
© 解释 异 质 Boosting 的 原理 。 从 分 类 器 误差 的 角度 看 ， 它 的 主要 优点 是 什么 ? 
。 AAE (Stacking) 方法 的 两 层 原 理 。 在 什么 情况 下 ,我 们 认为 层 琶 是 
泛 化 的 异 质 Boosting? 

















9.5 Boosting 方法 的 计算 优势 


在 一 些 机 器 学 习 方法 中 ， 计 算 代价 会 随 着 训练 集 大 小 的 增加 而 迅速 增长 。 实 
验 中 我 们 发 现 ， 使 用 一 半数 据 进 行 训练 的 代价 占 使 用 全 部 数据 训练 时 的 代价 的 很 





小 一 部 分 。 同 样 地 ， 学 习 方法 的 训练 代价 也 会 随 着 属性 数目 的 增长 而 迅速 增加 。 

一 个 例子 。 图 9. 4 给 出 了 计算 代价 和 样本 数量 之 间 的 关系 曲线 。 假 定 学 习 算 
法 从 V 个 样本 中 训练 出 一 个 分 类 器 所 需 的 时 间 为 7， 那么 ， 从 半数 样本 中 获得 一 
个 分 类 器 所 需 的 时 间 仅 是 7 的 1/5， 即 0.27。 基 于 这 一 点 ， 如 果 我 们 使 用 两 个 分 
类 器 ， 其 中 一 个 使 用 前 一 半 样 本 ， 另 一 个 使 用 后 一 半 样 本 ,那么 最 终 会 花费 2 - 
0.27=0.47 的 计算 时 间 ， 大 约 节 省 了 总 体 功 耗 的 60% 。 























CPU 运行 时 间 
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ND N 样本 数 
图 9.4 在 一 些 机 器 学 习 技术 中 ， 计 算 代价 会 随 着 训练 集 规 模 的 增 大 而 快速 增长 。 通 常 ， 
一 半 样 本 所 花费 的 计算 性 能 ， 只 占 所 有 样本 所 耗 性 能 的 一 小 部 分 

扩展 到 个 分 类 器 。 同 理 ， 我们 可 以 考虑 引入 上 个 分 类 器 ， 每 个 分 类 器 使 用 
不 同 的 样本 子 集 T 训练 ， 每 个 子 集 的 规模 为 m (m 是 由 用 户 设 置 的 )，m 远 小 于 
N。 使 用 这 些 子 集 获 得 的 分 类 器 进行 投票 ， 就 像 在 Bagging 方法 中 一 样 。 在 很 多 案 
例 中 ， 每 个 分 类 器 的 训练 只 占 原 时 间 的 很 小 一 部 分 ， 然 而 “投票 组 合 ” 的 分 类 性 
能 和 由 整个 样本 集训 练 的 分 类 器 的 性 能 差距 并 不 大 。 相 似 的 现象 也 可 以 在 与 
Schapire’s Boosting 和 Adaboost 的 比较 中 观察 到 。 

AZ, Boosting 方式 不 仅 提高 了 分 类 器 的 性 能 ， 它 还 起 到 了 节约 训练 的 计算 代 
价 这 一 作用 ， 这 一 点 在 高 维度 大 样本 数据 学 习 中 尤其 重要 。 高 维度 大 数据 学 习 的 
代价 是 非常 大 的 ， 因 此 任何 能 够 减少 计算 代价 的 方法 都 是 极其 受 欢 迎 的 。 

在 实际 应 用 中 的 评价 。 在 传统 的 Bagging HEP, T, 中 样本 数目 与 原始 训练 
集中 样本 数目 是 一 样 的 ， 因 此 如 图 9. 4 所 示 不 会 减 小 任何 的 计算 代价 。 另 一 方面 ， 
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我 们 对 T, 的 规模 进行 假设 是 为 了 确保 Bagging 作为 一 种 Bootstrapping 技术 的 可 行 
性 。 所 以 在 实际 应 用 中 ， 这 种 假设 并 不 必要 ， 可 以 放松 该 限制 。 也 就 是 说 ， 和 
Adaboost 方法 一 样 ， 训 练 集 7, 中 的 大 小 可 以 是 用 户 设置 的 常数 。 

我 们 可 以 回想 一 下 了 的 大 小 在 Schapire's Boosting 方法 和 异 质 Boosting 方法 中 
都 是 作为 参数 使 用 的 ， 这 一 规则 也 可 应 用 于 Stacking 方法 中 。 

样本 选择 的 代价 。 在 考虑 减 小 计算 代价 时 ， 我 们 不 能 忽略 那些 必要 的 开销 。 
例如 ， 每 次 选择 下 一 个 样本 子 集 7, 时 需要 付出 的 额外 代价 。 

在 传统 的 Bagging 的 应 用 中 ， 这 种 代价 是 非常 小 的 ; 在 Adaboost 中 花费 更 多 一 
些 ， 但 还 在 承受 范围 内 ; 但 是 Schapire’s Boosting 方法 就 不 行 了 ,寻找 满足 7, MT 
训练 集 的 代价 巨大 ， 特 别 是 当 有 大 量 的 训练 样本 可 以 使 用 ， 但 满足 条 件 的 样本 却 
仅 占 一 小 部 分 的 时 候 。 




















P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
如 何 理解 “使 用 小 样本 子 集训 练 并 产生 投票 组 合 的 方法 可 以 大 大 降低 计算 
代价 ”这 句 话 。 
© 讨论 在 哪些 状况 下 Boosting 方法 可 以 降低 计算 代价 。 
© 每 一 种 Boosting 技术 在 生成 训练 子 集 了 时 的 计算 代价 是 多 少 ? 




















9.6 总结 和 历史 简 评 





本 章 介 绍 了 一 种 通用 的 机 需 学 习 方法 ， 该 方法 需要 一 组 分 类 器 从 不 同 的 训 
练 样本 中 获得 学 习 模 型 。 然 后 每 个 分 类 器 分 别 对 原始 样本 中 每 一 个 样本 给 
出 一 个 分 类 。 最 后 ， 主 管 分 类 器 根据 投票 结果 给 出 最 终 的 结论 。 

该 方法 最 简单 的 实现 方式 是 Bagging。 产 生 每 一 个 分 类 天 的 样本 子 集 是 使 用 
Bootstrapping 机 制 从 原始 样本 集 7 了 中 选择 的 。 假 设 了 包含 m 个 样本 ,那么 
该 机 制 采用 随机 置换 方式 创建 样本 集 7,。 一 些 样本 可 能 在 7 中 不 止 一 次 出 


















































I, 但 是 有 一 些 却 总 不 出 现 。 
Schapire’s Boosting 方法 使 用 了 3 个 分 类 器 : Ci, C, 和 C; ， 并 使 它们 在 性 能 
上 尽 可 能 地 互补 。 这 种 互补 性 是 通过 创建 训练 子 集 的 方式 获得 的 : T 是 随 
机 创建 的 ; T, FAC, 对 其 进行 检测 的 错误 率 为 30% ; T, 是 用 C, 与 C, 分 类 
结果 不 一 致 的 样本 组 成 的 ， 但 是 每 个 子 集 包含 的 样本 数目 是 相同 的 。 
相 比 之 下 ，Adaboost 方法 按照 样本 概率 分 布 构建 样本 子 集 ， 要 求 每 次 创建 
7, 时 ， 那 些 前 面 分 类 器 分 类 出 错 的 样本 被 再 次 选择 的 概率 应 尽 可 能 大 。 男 
一 个 区 别 是 最 终 类 别 结果 的 获得 是 用 加 权 多 数 投票 的 方式 。 
这 个 机 制 还 有 几 个 衍生 的 方法 。 第 一 个 是 随机 选择 属性 集合 : 从 相同 的 训 
练 样本 中 训练 分 类 器 ， 但 每 次 使 用 的 属性 子 集 都 不 同 。 另 一 个 ， 异 质 
Boosting 方法 ， 总 是 使 用 相同 的 训练 集 (以 及 相同 的 属性 ) ， 但 却 使 用 不 同 
的 学 习 方 法 产生 分 类 器 ， 最 终 的 类 别 结果 也 由 加 权 多 数 投票 的 方式 获得 。 
最 后 一 种 是 层 受 方法 ， 类 似 于 异 质 Boosting 方法 ,但 是 输出 是 由 主管 分 类 
器 决定 的 ， 而 这 个 主管 分 类 器 是 从 底层 分 类 器 的 分 类 结果 训练 得 到 的 。 
历史 简 评 。Boosting 的 思想 是 由 夏 皮 尔 (Schapire) 提出 的 。 他 指出 这 种 方法 
正如 它 的 名 字 一 样 ， 即 便 是 很 弱 的 分 类 范式 用 这 种 方法 处 理 后 ， 其 性 能 也 会 有 很 
大 提升 。 后 来 ， 弗 罗 因 德 (Freund) 和 夏 皮 尔 (Schapire) 又 共同 提出 了 一 个 更 加 
实用 的 Adaboost 方法 ( 见 参考 文献 [26] ) 。 而 布 莱 曼 (Breiman) 提出 了 Bagging 
技术 〈 见 参考 文献 [7] ) ， 布 莱 曼 将 这 种 技术 用 在 了 决策 树 中 ， 提 出 了 随机 森林 
的 方法 〈 见 参考 文献 [8] ) 。 沃 尔 珀 特 (Wolpert) $i TÆ ( 即 Stacking) 原 
则 (PRAZALIA (Stacking Generalization) ) 。 










































































































































































9.7 巩固 你 的 知识 

















下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 
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练习 





1. 假设 用 于 Adaboost 的 样本 数据 的 概率 分 布 见 表 9. 6。 通 过 该 表 可 以 创建 也， 
并 且 将 T, 用 于 训练 分 类 需 Co Bit C; 错 分 样本 x, 和 x。， 请 演示 所 有 训练 





样本 的 概率 分 布 更 新 和 归 一 化 的 过 程 。 





9.6 训练 样本 概率 分 布 


p(x) p(x) p(x) p(x) p(x) p(x.) 


p(x) 


p(xs) P(Xy) P(X) 





0. 07 0. 07 0. 07 0. 07 0. 07 0. 07 








0. 07 


0.17 0.17 0.17 


2. 假设 8 个 分 类 器 已 经 标 好 了 一 个 样本 。 令 返回 pos 标记 的 分 类 需 权 重 分 别 
为 [0.1,，0.8，0.2]， 并 令 返 回 neg 类 标的 分 类 器 的 权重 为 [ -0.1, 
0.3，0.3,，0.4,，0.9]。 那 么 ,使 用 加 权 多 数 投票 的 主管 分 类 器 会 返回 什 


么 类 标 ? 





3. 回 到 表 9.5， 它 记录 了 6 个 不 同 的 分 类 带 给 样本 中 的 m 个 样本 进行 分 类 的 
结果 。 假 设 使 用 一 个 3-NN 分 类 器 的 主管 分 类 器 对 样本 做 最 终 标记 ， 且 3 








个 最 近邻 邻居 ( 表 9.5 的 列 ) 分 别 是 x、 
什么 ? 


思考 题 


TU 








x, Mx, PARANA RE 


1. 回忆 Schapire’s Boosting 方法 是 怎样 生成 训练 集 T, FT, 中 的 样本 的 。 讨 论 
在 哪些 情况 下 不 能 为 这 些 样 本 集 找到 足够 的 样本 。 假 设 可 以 获得 足够 的 样 








本 ， 什 么 情况 下 其 计算 代价 过 大 导致 其 不 实 月 








H? 相反 地 ， 假 设 能 够 获得 足 








够 的 样本 ， 在 哪 种 状况 下 即便 使 用 递归 也 能 够 使 得 计算 代价 在 可 承受 的 范 


Fa PY 2 


2. RABE, PSMA IEA BUY TOL, FAB, ieith hE 


让 该 方法 优 于 异 质 Boosting 的 情况 。 


上 机 实验 


1. 实现 Adaboost 基本 算法 ， 用 户 设置 投票 分 类 需 的 数目 。 同 时 ， 每 个 训练 集 








T, 所 含 的 样本 的 数目 也 作为 该 方法 的 输入 参数 。 各 个 分 类 器 的 权重 利用 感 
Ale J AS o 

. 将 上 机 实验 第 1 题 中 的 程序 在 一 些 UCI 库 上 进行 测试 。 仔 细 观 察 程 序 在 不 
同 数据 集 上 的 性 能 表现 。 对 每 一 个 数据 集 ， 画 出 显示 分 类 融 在 这 一 数据 集 
上 的 整体 准确 率 与 子 分 类 器 数目 关系 的 曲线 图 。 同 时 ， 观 察 训 练 数据 集 的 
错误 率 和 测试 数据 集 的 错误 率 是 怎样 随 着 分 类 需 数 目的 增长 而 慢 慢 减 
小 的 。 

.完成 堆 县 算法 在 不 同 的 底层 学 习 算 法 和 不 同 种 类 的 主管 分 类 器 上 的 实现 。 
将 这 些 实现 后 的 程序 在 多 个 基准 数据 集 上 训练 ， 并 观察 它们 的 表现 情况 。 


























205 


208 


机 器 学 习 导 论 


也 许 你 已 发 现 ， 为 了 简明 扼要 ， 目 前 的 介绍 并 没有 包括 机 器 学 习 的 基本 技术 。 
本 章 的 任务 就 是 展示 其 中 一 些 最 重要 的 内 容 。 

首先 要 考虑 的 是 偏好 (bias)。 为 了 能 够 学 习 ， 学 习 带 要 根据 当前 问题 建立 一 
些 假设 ， 从 而 缩小 搜索 空间 。 下 一 个 重要 问题 是 ， 如 果 大 多 数 的 训练 样 例 都 只 属 
于 一 个 类 ,那么 训练 集 规 模 的 增加 实际 上 对 学 习 嚣 有害。 然后， 我 们 讨论 对 那些 
随 着 语 境 和 时 间 的 变化 ， 定 义 也 会 发 生变 化 的 类 ， 以 及 如 何 去 处 理 它们 。 最 后 的 
部 分 我 们 关注 一 些 更 平常 的 问题 ， 如 未 知 属性 值 、 最 有 用 属性 集 的 选择 ， 以 及 多 
标签 样 例 的 问题 。 









































10.1 学 习 霸 的 偏好 

















第 7 童 中 我 们 大 胆 地 声明 “不 存在 没有 偏好 的 学 习 ”。 这 种 观点 的 意思 是 ， 没 
有 限制 (因此 范围 极 广 ) 的 假设 空间 会 包括 许多 假设 , 仪 仅 靠 运气 在 训练 集 上 正 
确 分 类 ， 在 以 后 分 类 时 会 产生 很 多 错误 。 例 如 ， 在 实际 生活 中 找 东 西 时 ， 你 要 知 
道 从 哪儿 开始 找 起 ， 藏 东西 的 地 方 越 小 ， 找 到 它 的 机 会 越 大 。 

一 个 简单 的 例子 。 假 设 我 们 要 找 出 接 下 来 这 组 整数 共有 的 属性 : 12，3，10， 
20，12，21，22，28| 。 用 机 带 学 习 的 语言 来 说 ， 这 些 数字 构成 了 正 例 。 与 此 同时 
也 给 出 了 一 些 负 例 : 11,， 4, 5,，11| 。 在 这 里 ， 并 没有 给 出 属性 。 

学 生 常 常 研究 数字 理论 里 的 概念 ， 以 试图 寻找 答案 ， 如 素数 、 奇 数 、 超 过 一 
定 临界 值 的 整数 、 算 术 运 算 后 的 结果 等 。 经 过 一 番 努 力 ， 找 到 了 一 些 满足 训练 样 
例 的 属性 。 但 通常 来 说 ， 找 出 的 规则 都 极其 复杂 ， 至 少 可 以 说 是 不 合适 的 。 

然而 ， 一 个 简单 的 解法 学 生 几 乎 没 用 过 。 其 实 ， 我 们 要 找 的 属性 并 不 是 来 自 
于 算术 方面 。 所 有 正 例 拥有 的 共同 点 是 ( 负 例 没有 ) 它们 都 以 字母 1 打头 : two, 
three, + ， 一 直到 28。 相 反 ， 负 例 集中 没有 一 个 整数 是 以 + 打头 的 。 

这 个 简单 的 解决 方法 之 所 以 这 么 难 找 是 因为 大 多 数 人 找 错 了 方向 (算术)。 
用 机 需 学 习 的 语言 来 说 ， 它 们 都 依靠 了 错误 的 俩 好 。 一 旦 他 们 得 到 了 正确 的 答案 ， 
他 们 就 会 把 这 次 的 经 验 用 到 将 来 的 分 类 上 。 如 果 再 给 一 个 相似 的 问题 ， 他 们 就 会 




































































#108 
了 解 一 些 实践 知识 





意识 地 不 仅 想到 算术 ， 同 时 也 会 想到 英文 单词 一 一 会 把 这 个 新 偏好 考虑 在 内 。 

表示 偏好 vs 过 程 偏好 。 就 机 器 学 习 而 言 ， 偏 好 分 为 很 多 种 形式 。 一 种 所 谓 的 
表示 偏好 (representational bias) 取决 于 我 们 想 把 分 类 器 用 哪 种 语言 形式 化 。 例 
如 ， 当 属性 为 连续 值 时 ， 一 个 可 能 的 表示 偏好 会 倾向 选择 线性 分 类 器 ， 另 外 一 个 
可 能 喜欢 选用 多 项 式 ， 而 再 一 个 则 对 神经 网 络 感 兴趣 。 如 果 所 有 属性 都 是 离散 值 ， 
那么 工程 师 大 概 喜欢 属性 值 的 连接 ， 甚 至 使 用 决策 树 方法 。 当 然 ， 所 有 这 些 偏好 
都 各 有 利 次 。 

除 此 以 外 ， 工程师 通 常 还 会 有 某 种 过 程 偏 好 (procedural bias)。 也 就 是 说 ， 
我 们 对 查找 答案 的 某 种 方法 有 偏好 ， 喜 欢 选 一 种 特定 的 机 器 学 习 过 程 。 例 如 ， 有 
这 样 的 偏好 依赖 于 一 种 假设 ， 即 修剪 会 改进 决策 树 在 未 来 数据 上 的 分 类 性 能 。 还 
有 一 个 过 程 偏好 是 在 神经 网 络 中 对 参数 集合 的 选择 。 然 而 在 线性 分 类 器 的 问题 域 
中 ， 工 程 师 会 用 感知 器 学 习 而 不 用 WINNOW , REIH., 

偏好 的 强度 vs 偏好 的 正确 性 。 假 设 工程 师 现 在 希望 决定 使 用 线性 分 类 器 还 是 
神经 网 络 来 处 理 一 个 现成 的 机 器 学 习 问 题 。 如 果 正 负 例 都 是 线性 可 分 的 ,那么 线 
性 分 类 器 很 明显 就 是 更 好 的 选择 。 当 两 种 范式 都 能 寻找 解决 办 法 时 ， 神 经 网 络 更 
倾向 于 过 度 拟 合 训练 集 ， 因 此 难以 推广 到 将 来 的 数据 中 。 另 一 方面 ， 如 果 用 于 分 
开 两 个 类 的 边界 线 高 度 非 线性 ， 那 么 线性 分 类 器 会 缺乏 必要 的 灵活 性 ， 而 使 用 神 
经 网 络 来 处 理 可 能 很 简单 。 读 者 现在 开始 理解 每 一 种 偏好 都 有 两 个 关键 的 方面 : 
强度 和 正确 性 。 

如 果 一 种 偏好 仅仅 定义 了 一 个 小 规模 的 分 类 器 类 ， 则 它 就 是 强 偏好 。 从 这 个 
意义 上 来 说 ， 线 性 分 类 器 的 偏好 远 远 强 于 神经 网 络 的 偏好 : 前 者 仅 允 许 线性 的 决 
策 面 ， 而 后 者 几乎 能 拟 合 任何 决策 面 。 

如 果 一 种 偏好 能 够 解决 当前 任务 ， 那 么 它 就 是 正确 的 。 例 如 ， 只 有 当 正 例 和 
负 例 在 一 个 域 中 线性 可 分 时 ， 线 性 分 类 需 的 偏好 才 是 正确 的 。 只 有 当 一 个 类 确实 
能 被 用 布尔 属性 的 组 合 描述 时 ， 这 个 布尔 属性 的 组 合 才 是 正确 的 。 当 然 了 ， 正 确 
裔 好 的 反义词 ， 不 正确 偏好 ， 并 不 是 一 个 精确 的 概念 。 它 包含 许多 等 级 ， 有 些 偏 
好 只 是 稍微 不 正确 ， 而 另外 一 些 则 很 显著 。 

有 用 的 经 验 法 则 : 奥 卡 姆 剃刀 。 理 想 情 况 下 ， 工 程 师 想 要 使 用 一 种 正确 的 偏 
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好 (表示 偏好 或 是 过 程 偏好 ) 。 我 们 在 第 7 章 里 学 到 : 如 果 要 在 两 个 或 两 个 以 上 的 
正确 偏好 中 做 出 选择 ， 那 么 工程 师 会 偏向 于 选择 更 强烈 的 偏好 ， 因 为 它 更 有 可 能 
获得 成 功 。 第 7 章 中 建议 选择 名 为 奥 卡 姆 剃刀 的 最 简单 的 方法 。 

不 地 的 是 ， 我 们 很 少 能 提前 知道 各 种 偏好 正确 还 是 不 正确 。 有 根据 的 推测 已 
经 是 能 希望 的 最 好 结果 了 。 在 一 些 范式 中 ， 如 高 阶 多 项 式 ， 偏 好 很 弱 ， 导 致 分 类 
器 很 可 能 在 整个 训练 集 上 分 类 的 错误 率 为 0; 然而 因为 PAC 学 习 能 力 的 问题 ， 它 
在 未 来 数据 上 的 表现 则 不 确定 。 偏 好 的 增强 〈 如 通过 减少 一 个 多 项 式 的 阶 数 ) 会 
减少 VC 维 ， 增 加 在 未 来 数据 上 的 机 会 一 一 但 只 有 当 偏好 仍 保持 正确 的 时 候 才 有 
用 。 在 某 个 特定 时 刻 ， 加 强 偏 好 次 大 于 利 ， 因 为 极 有 可 能 这 种 偏好 变 得 不 正确 。 

我 们 需要 记 住 ， 现 实 中 存在 无 法 回避 的 权衡 : 一 个 不 太 正 确 但 强 的 偏好 比 
个 正确 但 很 弱 的 偏好 要 好 。 但 是 ， 术 语 “ 不 太 正 确 的 偏好 ”意味 着 要 基于 工程 师 
的 经 验 或 额外 的 实验 ， 以 便 在 具体 的 应 用 中 做 决定 (参见 第 11 章 )。 

“终身 学 习 ”。 在 一 些 应 用 里 ， 机 器 学 习 软 件 是 要 学 习 一 系列 概念 或 类 ， 所 有 
的 这 些 都 被 期 望 在 同类 特定 的 俩 好 范围 内 找到 解决 方法 。 在 这 种 情况 下 ， 在 两 个 
层次 里 组 织 学 习 过 程 就 说 得 通 了 。 在 较 低 的 层次 里 ,任务 是 要 分 辨 出 最 合适 的 偏 
好 ; 在 较 高 的 层次 里 ， 软 件 通过 使 用 这 个 偏好 来 归纳 分 类 器 。 这 一 策略 的 名 称 是 
“ 终 映 学 习 ”， 提 醒 我 们 人 类 学 习 过 程 中 遇 到 的 典型 用 难 ， 需要 在 特定 领域 内 “学 
会 如 何 学 习 ”。 

分 类 器 错误 的 两 个 来 源 。 到 目前 为 止 ， 我 们 观察 到 分 类 需 错 误 有 两 个 主要 来 
源 。 首 先是 训练 样 例 的 变化 。 问 题 是 ， 用 以 准确 归纳 分 类 需 的 数据 并 不 能 表示 所 
属 类 的 所 有 方面 ， 部 分 原因 是 生成 训练 集 的 方式 造成 的 。 在 一 些 应 用 里 ， 训 练 集 
是 随机 生成 的 。 在 其 他 问题 域 中 ， 它 是 由 给 定时 刻 可 获得 的 样 例 构 成 的 ， 有 很 大 
的 随机 性 。 然 而 在 另外 一 些 情况 下 ， 训 练 集 是 由 专家 生成 的 ， 他 们 把 自己 认为 最 
有 代表 性 的 给 定 类 的 样 例 选 了 出 来 。 最 后 一 种 情况 难免 主观 ， 因 此 和 前 两 种 情况 
一 样 不 可 靠 。 纵 观 全 部 例子 ,很 容易 想象 到 从 同一 个 问题 域 里 可 以 生成 不 同 的 训 
练 集 。 问 题 就 在 这 儿 ， 从 不 同 的 训练 集 里 ,会 归纳 出 多 少 有 些 不 同 的 分 类 如 ， 而 
且 不 同 的 分 类 融会 在 未 来 数据 上 产生 多 少 有 些 不 同 的 错误 。 这 就 是 为 什么 我 们 会 
说 训练 数据 的 变化 是 错误 的 重要 来 源 。 如 果 我 们 使 用 非常 大 的 训练 集 ， 则 它 的 负 
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影响 往往 都 能 被 减 小 。 

错误 的 第 二 种 来 源 是 与 偏好 有 关 的 。 如 果 正 (pos) 和 负 (neg) 两 种 类 都 不 
是 线性 可 分 离 的 ， 那 么 任何 线性 分 类 器 都 必然 会 分 错 某 个 最 小 比例 的 未 来 样 例 。 
与 俩 好 相关 的 错误 不 可 能 减少 到 低 于 某 个 极限 值 ， 因 为 它们 是 所 选 类 型 的 分 类 需 
固有 的 性 质 。 

仔细 在 两 种 来 源 间 权衡 是 有 益 的 。 如 果 我 们 用 偏好 较 弱 的 机 絮 学 习 方法 ， 与 
届 好 相关 的 错误 就 能 减少 。 很 不 幸 ， 一 个 意外 的 结果 是 这 种 做 法 方差 (variance ) 
较 大 。 反 过 来 ,不 一 致 性 从 理论 上 能 通过 加 强 偏 好 来 减 小 一 一 这 么 做 如 果 不 正确 ， 
就 会 增加 与 偏好 相关 的 错误 的 频率 。 






































Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 请 解释 表示 偏好 和 过 程 偏好 的 不 同 ,使 用 例子 说 明 。 
© 请 解释 强 偏好 和 弱 偏 好 之 间 的 差别 、 正 确 偏好 和 错误 偏好 之 间 的 差别 。 讨 
论 两 个 二 分 类 法 的 相互 关系 。 
。 本 节 指 出 分 类 器 在 新 的 数据 中 表现 不 佳 的 两 个 典型 因素 是 什么 ? 




















10.2 不 平衡 训练 集 


当 讨 论 到 漏 油 事 件 问题 时 ，8. 2 市 指 出 的 看 上 去 特别 明显 的 淤 油 图 像 相 对 罕 
见 。 确 实 ， 这 个 项 目 只 能 依赖 于 几 十 个 正 例 ， 而 负 例 有 很 多 。 两 个 类 之 间 的 不 平 
衡 对 机 需 学 习 的 影响 非常 严重 。 这 一 人 小节 会 解释 出 现 困 难 的 原因 ， 然 后 继续 解释 
一 些 减 少 它们 负面 影响 的 简单 方法 。 

一 个 简单 的 实验 。 假 设 我 们 有 一 个 训练 集 。 这 个 训练 集 很 小 ， 仅 仅 包括 50 个 
正 例 和 SO 个 负 例 。 对 这 个 训练 集 进行 5 次 交叉 验证 ?: 我 们 将 其 平均 分 为 5 块 ; 
然后 ， 执 行 5 次 不 同 的 实验 ， 每 次 移 走 其 中 一 块 ， 在 剩余 4 块 组 成 的 集合 中 归纳 














O 在 11.6 节 中 将 介绍 此 评价 方法 。 


211 


212 


机 器 学 习 导 论 


出 一 个 分 类 需 ， 然 后 在 被 移 除 的 那 块 上 测试 这 个 分 类 需 。 这 样 ， 我 们 能 够 消除 或 
至 少 减 少 在 选择 具体 的 训练 集 时 随机 性 的 影响 。 最 后 ， 我 们 记 下 各 次 测试 的 平均 
结果 : 正 例 的 分 类 精度 ， 负 例 的 分 类 精度 ， 以 及 两 种 分 类 精度 的 几何 均值 。 

假设 现在 可 供 我 们 支配 的 负 例 远 远 超过 我 们 的 预期 。 想 要 知道 这 一 新 情况 是 
如 何 影响 学 习 的 ， 我 们 在 原始 训练 集 的 基础 上 再 加 入 50 个 负 例 ( 正 例 保持 不 变 ) , 
重复 实验 过 程 ， 然 后 记 下 新 的 结果 。 同 样 地 ， 我 们 在 保证 原始 的 50 个 正 例 的 情况 
下 ， 往 训练 集中 再 加 入 50 个 负 例 。 

观察 。 如 果 绘 制 以 上 一 系列 实验 的 结果 ， 我 们 很 可 能 得 到 一 张 和 图 10. 1 一 样 
的 图 ， 其 中 使 用 到 1-NN 分 类 器 。 读 者 可 以 看 到 ， 随 着 多 数 类 样 例 的 增加 ， 归 纳 分 
类 天 就 会 变 得 偏向 这 一 类 ， 负 例 (多 数 类 ) 的 分 类 精度 逐渐 聚拢 向 100% ， 而 正 
例 (DBCS) 的 分 类 精度 降 到 20% 以 下 。 两 个 值 的 几何 平均 值 也 会 下 降 。 
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负 例 的 数目 





图 10.1 点 线 : 负 类 的 分 类 精度 ; GHAR: 正 类 的 分 类 精度 ; 实 线 : 两 种 分 类 精 
度 的 几何 均值 
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在 一 定 程度 上 ， 观 测 结果 可 能 是 违反 直觉 的 。 确 实 ， 如 果 有 更 多 的 训练 样 例 
可 用 ， 归 纳 分 类 器 应 该 变 得 更 加 强大 ， 即 便 增加 的 样 例 碰 巧 全 都 属于 同一 类 ? 不 
过 ， 前 面 描述 的 意外 表现 在 机 器 学 习 方法 中 很 典型 。 工 程 师 经 常 称 之 为 不 平衡 类 
表示 问题 。 

多 数 类 欠 抽 样 ( 机 械 法 ) 。 实 验证 明 ， 通 过 加 入 更 多 的 多 数 类 的 样 例 可 能 造成 
分 类 顺 在 少数 类 的 表现 上 降级 。 这 可 能 会 成 为 一 个 严重 的 缺陷 。 在 溢 油 问题 域 中 ， 
少数 类 代表 江油 ， 是 机 咒 学习 的 主要 目标 。 在 医疗 诊断 中 ， 典 型 的 少数 类 是 我 们 
想 识别 出 的 任何 送 乱 。 同 样 的 道理 ， 一 些 软 件 的 任务 是 在 公司 产品 被 不 当 使 用 时 
发 出 警示 (例如 ， 电 话 卡 的 错误 使 用 ， 或 信用 卡 诈骗 )。 在 这 种 类 型 的 问题 域 里 ， 
吸引 我 们 的 是 少数 类 。 我 们 现在 知道 盲目 地 往 训练 集 里 添加 更 多 的 多 数 类 的 样 例 
ÍRT REER FA, 

假设 提供 给 我 们 一 个 严重 不 平衡 的 训练 集 ， 其 中 9/10 的 样 例 都 是 负 例 。 在 这 
种 情况 下 ， 移 除 一 些 负 例 是 有 益 的 。 最 简单 可 行 的 做 法 是 随机 地 移 除 ， 例 如 ， 每 
一 个 负 例 有 50% 的 概率 被 移出 训练 集 。 正 如 上 文 提 到 的 那样 ， 从 这 种 减少 的 训练 
集中 归纳 出 来 的 分 类 需 将 优 于 从 整个 训练 集中 归纳 出 来 的 分 类 需 。 

辨识 原因 。 前 文 指出 的 机 械 方 法 很 难 让 思维 续 密 的 工程 师 满 意 。 他 们 想 弄 明 
日 为 什么 移 除数 据 有 效 ; 或 者 反 过 来 ， 为 什么 增加 多 数 类 样 例会 产生 不 好 的 结果 。 

假设 1-NN 分 类 器 使 用 了 一 个 训练 集 ， 其 中 大 多 数 都 是 负 例 ， 只 有 很 少 是 正 
例 。 而 且 ， 数 据 被 相当 多 的 数据 标签 噪声 干扰 。 让 我 们 把 数据 限制 在 一 个 容易 想 
象 的 两 个 类 的 域 里 ， 图 10. 2a 展示 了 一 个 这 样 的 训练 集 。 读 者 很 可 能 注意 到 了 一 
点 : 由 于 噪声 的 缘故 , 几乎 所 有 正 例 的 最 近邻 都 是 负 例 。 实 际 上 ， 这 些 邻 居 可 能 
是 正 例 ， 它 们 被 标 为 负 例 是 因为 在 生成 训练 集 的 过 程 中 产生 了 错误 。 不 管 怎样 ， 
1-NN 分 类 天 错误 地 将 这 些 正 例 进 行 了 分 类 ， 这 就 是 为 什么 会 有 这 人 么 多 假 的 负 例 和 
这 么 少 的 〈 如 果 有 的 话 ) 假 的 正 例 的 原因 。 

当然 ， 并 不 是 所 有 的 机 器 学 习 方 法 都 会 经 历 与 1-NN 分 类 顺 一 样 的 情形 。 但 它 
们 大 多 数 会 在 一 定 程 度 上 经 历 ， 并 且 现 在 我 们 知道 了 原因 。 

可 靠 的 解决 方法 : 单 边 选择 。 知 道 问题 的 根源 后 ， 我 们 准备 好 了 一 个 补救 方 
法 ， 即 令 我 们 头痛 的 是 在 正 例 的 区 域 中 出 现 了 很 多 带 有 类 噪声 的 样 例 ， 如 果 我 们 
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主动 移 除 这 种 样 例 ， 则 情况 将 会 改善 (而 不 是 用 上 文 提 到 的 
选择 ) 。 





机 械 法 中 的 随机 





图 10.2 在 负 例 远 远 多 于 正 例 并 且 有 了 噪声 的 域 中 ， 移 除 托 梅 克 
links) 中 的 负 例 能 增强 分 类 器 的 性 能 


在 第 3 章 我 们 接触 过 一 个 简单 算法 : 托 梅 元 连接 ， 能 够 识别 








连接 ( Tomek 


“ap RE” 的 样 例 。 


读者 还 记得 有 两 个 样 例 (x，y) ， 如 果 满 足 3 个 条 件 ， 就 可 使 用 托 梅 克 连接 : 由 两 
个 样 例 的 类 标签 不 同 ; Qe 的 最 近邻 是 y; Dy 的 最 近邻 是 zx。 像 图 10. 2a 中 描述 
的 那样 ， 许 多 噪声 样 例 确实 都 满足 托 梅 克 连接 。 这 表明 如 采 我 们 删除 训练 集中 托 
梅 克 连接 对 中 的 负 例 ， 就 可 能 改善 分 类 央 的 表现 。 这 个 原理 被 称 为 单 边 选择 ， 因 














为 在 训练 集中 只 有 托 梅 克 连 接 的 一 侧 被 选中 。 
如 果 将 这 个 技术 用 到 图 10. 2a 所 示 的 训练 集中 ， 我 们 能 得 殖 

















| 图 10. 2b 所 示 的 


小 一 些 的 训练 集 。 不 难看 出 ， 假 的 负 例 的 频率 变 低 了 。 这 个 方法 的 效率 通常 高 于 


随机 机 械 移 除法 。 


相反 的 解决 方法 : 少数 类 的 过 抽样 。 不 过 ， 在 一 些 问题 域 中 ， 训 练 集 太 小 ， 


以 至 于 用 任何 从 抽 样 方法 减少 规模 都 不 可 行 。 即 便 是 多 数 类 的 检 





F 例 也 很 稀少 ， 





这 
时 移 除 它 们 中 的 任何 一 个 都 可 能 删除 学 习 任 务 中 的 一 些 关 键 信 息 ， 从 而 损害 分 类 





器 的 性 能 。 


在 这 种 情况 下 ， 相 反 的 方法 有 时 更 好 。 与 其 移 除 多 数 类 的 样 例 ， 不 如 我 们 添 
加 代表 少数 类 的 样 例 。 由 于 我 们 没有 这 一 类 真实 的 样 例 ， 因 此 必须 人 工 创建 它们 。 
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这 可 以 通过 两 种 方法 做 到 : 

1. 对 来 自 少数 类 的 每 个 样 例 ， 生 成 一 个 副本 并 且 把 这 个 副本 加 到 训练 集中 ; 
或 者 为 每 个 样 例 创 建 两 个 或 更 多 的 副本 并 添加 。 

2. 对 来 自 少数 类 的 每 个 样 例 ， 生 成 一 个 稍微 修改 过 的 版 本 ， 并 把 它 添加 到 训 
练 集中 。 这 个 修改 是 通过 对 连续 属性 做 微小 (随机 的 ) 改动 得 到 的 ; 对 离散 型 的 
属性 值 ， 这 么 做 不 太 有 用 ,但 仍然 是 可 能 的 。 

图 10. 2a 帮助 我 们 理解 为 什么 这 能 行 得 通 。 对 于 一 些 “ 被 破坏 ”的 正 例 (AR 
些 最 近邻 因为 噪声 而 变 成 反例 ) 的 邻居 ， 在 少数 类 过 采样 中 插入 额外 的 正 例 ， 结 






























































果 ，1-NN 分 类 器 不 会 再 被 误导 。 这 个 原则 也 有 助 于 改善 其 他 类 型 分 类 器 的 表现 。 
A pai 
fi 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
什么 是 不 平衡 训练 集 ? 请 解释 为 什么 从 不 平衡 训练 集中 做 归纳 经 常 得 出 令 
人 失望 的 结果 。 
多 数 类 欠 采 样 的 本 质 是 什么 ? 请 解释 机 械 的 方法 ， 然 后 回答 使 用 托 姆 克 连 
接 单 边 选 择 的 动机 和 原则 。 
请 解释 少数 类 过 抽样 的 原则 。 说 明 向 训练 集中 添加 新 样 例 的 两 种 方式 。 














10.3 语 境 相关 域 














直到 现在 ， 我 们 都 一 直 假 设 一 个 给 定 类 是 固定 不 变 的 ， 也 就 是 说 ， 一 个 分 类 
器 一 旦 被 归纳 出 来 ， 在 所 有 的 环境 下 会 表现 出 相同 的 〈 或 至 少 相似 的 ) 行为 。 但 
是 ， 情 况 并 不 总 是 这 样 。 

语 境 相关 的 类 。 一 些 类 会 随 着 环境 改变 它们 的 内 涵 。 稍 加 思索 ， 你 就 会 发 现 
在 日 常生 活 中 有 很 多 这 样 的 例子 。 例 如 , “时 装 ” 的 含义 会 随时 间 变 化 ; 不 同 的 
文化 对 着 闭 的 要 求 也 不 同 ; 100 多 年 前 “最 先进 科技 ”和 现在 的 也 完全 不 同 ; 即 
使 是 “民主 ”或 “正义 ”这 样 的 词 ， 其 含义 也 依赖 于 政治 背景 和 历史 环境 。 如 果 
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你 想 要 更 专业 的 例子 ， 那 么 想 一 想 语 音 识 别 软件 中 遇 到 的 问题 : 每 个 人 都 知道 同 
一 个 词 的 英 式 发 音 和 美式 发 音 不 同 , 但 是 软件 要 “理解 ”来 自 两 种 背景 的 说 
话 者 。 

语 境 相关 的 特性 。 从 本 书 的 需要 出 发 ， 语 境 被 定义 为 一 种 特性 ， 在 独立 的 情 
况 下 对 类 没有 影响 ， 但 当 它 和 其 他 特性 结合 在 一 起 时 会 影响 类 。 

例如 ， 假 设 你 希望 引进 一 个 分 类 器 ， 这 个 分 类 需 能 够 依据 一 系列 的 症状 识别 
X 来 帮助 医疗 诊断 。 一 些 属 性 特征 没有 任何 预测 功能 ， 如 性 别 。 男 性 病人 并 不 意 
味 着 他 更 容易 得 前 列 腺 癌 ，, 但 是 属性 值 “性 别 = 女性 ”就 是 一 个 明确 的 暗示 ， 这 
个 类 不 是 更 容易 得 前 列 腺 癌 。 当 然 ， 这 是 一 个 极端 的 例子 。 在 男 一 个 诊断 中 ， 人 性 
别 的 影响 会 受到 某 些 测 试 的 关键 值 的 限制 ， 如 关键 临界 值 对 于 男性 病人 来 说 是 p = 
0. 5， 而 对 女性 病人 来 说 是 p=0.7。 男 外 ， 先 验 概率 会 有 影响 ， 乳 乳癌 对 女性 来 说 
是 更 典型 的 疾病 ， 尽 管 男性 也 有 可 能 得 乳腺 癌 。 

在 语 境 相关 域 中 归纳 。 假 设 你 想 要 归纳 一 个 语音 识别 系统 ， 而 且 你 有 一 套 英 
国人 和 美国 人 的 语音 训练 样本 。 假 设 属性 向 量 描述 每 一 个 例子 包含 “ 语 境 ” 属 
性 ， 即 说 话 者 的 地 区 。 男 一 个 属性 捕捉 具体 的 数字 信号 。 每 一 个 类 标签 都 代表 一 
个 不 同 的 音素 。 

在 归纳 分 类 天 时 ， 对 决定 代表 哪个 音素 的 属性 向 量 ， 工 程 师 能 采用 两 种 
不 同 的 策略 。 第 一 种 利用 语 境 属性 ， 把 训练 样本 分 为 两 个 子 集 ， 一 个 是 英 式 
英语 的 ， 一 个 是 美式 英语 的 。 然 后 从 每 种 训练 子 集中 分 别 归纳 出 各 自 的 分 类 
器 。 第 二 种 策略 是 把 所 有 的 样本 混合 成 一 个 大 的 训练 集 ， 然 后 归纳 出 一 个 
“通用 ”分 类 天 。 

实践 经 验 表明 ， 在 这 类 应 用 中 ， 如 果 那 些 实时 系统 知道 选择 哪 一 个 分 类 需 ， 
则 第 一 个 策略 表现 较 好 。 通 过 附加 一 个 二 值 分 类 器 ， 它 经 过 训练 后 能 分 辨 出 英 式 
英语 和 美式 英语 ， 可 以 帮助 做 分 类 器 的 选择 。 

概念 漂移 。 有 时 候 ， 语 境 会 随时 间 改 变 。 之 前 提 到 的 “时 装 ” 例 子 就 属于 这 
一 类 型 ， 政 治 词汇 也 是 这 样 。 在 这 种 情况 下 ， 机 带 学 习 专 家 会 谈 到 所 谓 的 概念 漂 
移 。 他 们 的 意思 是 ， 随 着 时 间 的 推移 ， 一 个 类 的 本 质 含义 会 从 一 个 语 境 漂 移 到 田 


一 个 语 境 。 
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漂移 有 许多 方面 。 其 中 一 种 是 语 境 在 一 定 程度 上 改变 了 类 的 意义 。 极 少数 情 





不 过 更 典型 的 情况 是 变化 不 太 大 ， 仅 仅 导 致 分 类 器 性 能 的 轻微 下 降 。 也 许 经 过 一 
些微 调 ， 旧 的 分 类 需 仍 然 可 以 使 用 。 

另 一 个 值得 考虑 的 特性 是 漂移 的 “速度 ”， 极 端 情况 是 剧变 。 在 某 个 时 刻 ， 
一 个 语 境 直 接 被 另 一 个 代替 。 不 过 更 典型 的 是 渐进 变化 。 一 个 语 境 代 蔡 另 一 个 语 
境 时 会 有 一 个 “过 渡 ” 期 。 在 这 种 情况 下 ， 工 程 师 会 问 这 个 过 渡 有 多 快 ， 以 及 概 
念 漂移 是 否 ( 或 什么 时 候 ) 需要 采取 特殊 措施 。 

时 变 类 的 归纳 。 概念 漂移 中 所 过 到 最 简单 的 情景 如 图 10. 3 所 示 。 这 里 ， 一 个 
分 类 需 会 面 对 一 个 样 例 流 ， 一 次 到 达 一 个 ， 或 按 有 规律 或 无 规律 的 间隔 到 达 。 每 
次 样 例 到 达 时 ， 分 类 融会 给 它们 贴 上 类 标签 。 这 时 也 许 有 或 没有 一 个 反馈 告诉 系 
Be (IBN A BE REGS) 分 类 是 否 正确 。 如 果 不 是 ,那么 正确 的 类 标签 应 该 是 
什么 。 


























窗口 


样 例 [ri] 
ETET OE tot to tot tyt ot te te tot ft tt tt 


当前 一 -一 > 
分 类 器 


图 10.3 一 个 窗口 经 过 一 系列 样 例 ; “当前 分 类 器 ”定期 
更 新 以 反映 所 属 类 的 变化 。 如 果 相 关 语 境 再 现 ， 
则 系统 会 检索 出 以 前 的 分 类 器 


























保存 的 
旧 分 类 器 




















如 果 我 们 有 理由 怀疑 一 个 偶然 概念 漂移 的 概率 ， 那 么 利用 图 10. 3 中 展示 
出 来 的 滑动 窗口 大 概 是 个 好 办 法 。 这 样 ， 仅 仅 从 “在 窗口 中 看 到 的 ” 样 例 中 
归纳 出 一 个 分 类 器 。 每 当 有 新 样 例 到 达 时 ， 就 会 添加 至 窗口 中 。 到 了 一 个 适 
当 的 时 候 ， 旧 样 例会 被 单独 或 成 组 移 除 ， 如 “最 旧 的 25% 的 样 例 ”。 删 除 的 
动机 很 简单 : 工程 师 认 为 旧 的 样 例 大 概 属于 过 时 的 语 境 ， 而 他 只 想 让 窗口 中 
包含 最 近 的 样 例 。 
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正如 上 文 提 到 的 那样 ， 分 类 需 本 应 只 反映 包含 在 窗口 中 的 样 例 。 在 最 简单 的 
实现 中 ， 每 次 窗口 中 的 内 容 改 变 了 ， 分 类 需 都 会 被 重新 归纳 。 另 一 种 情况 ， 窗 口 
内 容 的 改变 只 修正 或 适应 已 有 的 分 类 噩 。 

然而 图 10. 3 展示 了 这 个 学 习 范式 的 另 一 个 方面 : 有 时 一 个 旧 的 语 境 可 能 会 重 
新 出 现 〈 例 如 ， 因 为 某 种 “季节 性 ”) 。 出 于 这 个 原因 ， 保 存 之 前 归纳 的 分 类 需 的 
版 本 可 能 是 一 个 好 主意 ， 以 备 它们 在 未 来 会 被 用 到 。 

滑 窗 方法 中 的 工程 问题 。 在 实施 滑动 窗口 方法 的 时 候 ， 有 些 重要 的 问题 
是 工程 师 必须 要 考虑 的 。 首 先是 窗口 大 小 的 问题 。 如 果 太 小 ， 那 么 包括 的 样 
例 就 不 足以 进行 成 功 的 学 习 。 如 果 太 大 ， 就 可 能 包含 了 过 时 语 境 中 的 样 例 。 
那么 ， 理 想 的 状态 是 只 要 语 境 没 有 改变 ， 这 个 窗口 就 会 变 大 〈 没 有 旧 的 样 例 
WO 
们 不 再 可 信 。 

这 就 引出 了 下 一 个 重要 的 问题 : 如 何 分 辨 出 一 个 语 境 已 经 改变 了 ? 一 个 简单 
的 解决 措施 是 依靠 分 类 器 行为 的 反馈 ， 发 现 分 类 器 性 能 有 突然 的 下 降 就 能 识别 出 
语 境 发 生 了 变化 。 

最 后 的 问题 是 ， 应 该 从 窗口 中 删除 的 最 旧 的 样 例 是 多 少 呢 ? 答案 要 看 语 境 是 
如 何 逐 步 变化 的 ， 以 及 变化 的 程度 。 极 端 情况 下 ， 一 次 剧烈 的 相当 大 的 变化 可 能 
会 删 掉 所 有 的 样 例 。 另 一 个 极端 是 ， 两 个 极其 相似 语 境 的 一 次 缓慢 过 渡 只 会 删 掉 
很 少 一 部 分 最 旧 的 样 例 。 


























P 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 请 列举 一 些 类 ， 它 们 的 含义 会 由 于 时 间或 地 理 位 置 的 不 同 而 变化 。 请 列举 
出 那些 之 前 含义 会 适时 重 现 的 域 。 
请 描述 基于 时 间 顺 序 的 一 串 样 例 构成 的 场景 。 请 解释 滑动 窗 方法 用 于 归纳 
时 变 域 的 原则 。 
简要 讨论 在 滑动 窗 方法 中 过 到 的 基本 工程 问题 。 
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10.4 未 知 属性 值 


许多 的 域 中 都 会 有 某 个 未 知 的 属性 值 。 病 人 拒绝 透露 他 的 年 龄 、 测 量 装 置 不 
成 功 ， 以 及 一 些 信 息 的 丢失 或 因为 其 他 一 些 原 因 得 不 到 数据 。 因 此 ， 我 们 就 有 了 
如 表 10. 1 那样 不 完全 的 训练 集 。 表 中 的 一 些 数值 被 问号 代替 。 在 一 些 域 中 ， 问 号 
代 蔡 了 属性 值 值 域 的 大 部 分 ， 这 会 使 学 习 任务 变 得 复杂 。 工 程 师 需要 理解 这 些 未 
知 值 会 带 来 哪些 损害 ， 以 及 有 哪些 解决 措施 。 

负面 影响 。 在 朴素 -NN 分 类 器 中 ， 只 有 构成 向 量 的 所 有 值 已 知 ， 两 个 向 量 的 
距离 才能 通过 计算 得 到 。 诚 然 ， 距离 测 度 能 够 被 修改 ， 以 便 能 量化 像 红 色 和 未 知 
之 间 的 距离 。 但 是 以 这 种 方式 测量 出 来 的 距离 会 相当 特别 。 

现在 的 情况 不 比 多 项 式 分 类 器 和 线性 分 类 器 好 多 少 。 不 知道 所 有 属性 值 ， 就 
不 可 能 计算 加 权 和 ， 即 > wa 。 它 的 符号 告诉 分 类 器 要 选择 哪个 类 标签 。 同 样 
地 ， 未 知 的 属性 值 会 使 贝 叶 斯 分 类 器 和 神经 网 络 的 使 用 复杂 化 。 

从 某 种 意义 上 说 ， 决 策 树 更 灵活 。 当 要 分 类 一 个 样 例 时 ， 很 有 可 能 一 个 未 知 
盟 性 值 不 是 必须 测试 的 〈 从 根 结 点 到 终端 结 点 的 路 径 上 没有 它 ) 。 

填补 缺失 值 的 方法 。 在 一 个 有 充足 的 仅 包含 极 少 问号 的 大 训练 集 的 域 中 ， 要 
移 除 所 有 未 知 属性 值 的 样 例 并 无 大 碍 。 然 而 ， 这 在 有 很 多 问号 的 域 中 就 行 不 通 了 。 
在 这 样 的 域 中 ， 如 果 移 除 所 有 受 影响 的 样 例 则 会 破坏 大 部 分 的 训练 集 ， 丢 失 有 价 
值 的 信息 。 

在 这 种 情况 下 ， 我 们 尝试 着 用 一 些 数 值 来 代替 问号 ， 即 使 这 些 值 是 不 正确 的 。 
这 很 容易 操作 。 当 属性 值 是 离散 的 时 候 ， 那 么 我 们 就 会 用 出 现 最 频繁 的 属性 值 来 
代替 问号 。 因 此 在 表 10. 1 中 ， 样 例 ex8 ， 未 知 的 外 壳 一 颜色 的 值 就 会 被 白色 替代 ， 
因为 这 是 在 特定 训练 集中 最 常见 的 。 在 连续 属性 值 的 情况 下 ， 可 以 使 用 平均 值 。 
JE ex6 和 exl0 中 ,权重 (Weight) 的 值 是 不 知道 的 。 在 10 个 已 知 样 例 中 ， 权 重 的 
均值 是 5.1， 所 以 我 们 在 ex 6 和 ex10 中 就 用 这 个 数值 。 
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表 10.1 有 缺失 属性 值 的 训练 样 例 



























































Crust Filling 
样 例 Shape Weight 类 别 
Size Shade Size Shade 
exl Circle Thick Gray Thick Dark 7 pos 
ex2 Circle Thick White Thick Dark 2 pos 
ex3 Triangle Thick Dark Thick Gray 2 pos 
ex4 Circle Thin White ? Dark 3 pos 
ex5 Square Thick Dark ? White 4 pos 
ex6 Circle Thick White Thin Dark ? pos 
ex7 Circle Thick Gray Thick White 6 neg 
ex8 Square Thick ? Thick Gray 5 neg 
ex9 Triangle Thin Gray Thin Dark 5 neg 
exl0 Circle Thick Dark Thick ? ? neg 
exll Square Thick White Thick Dark 9 neg 
ex12 Triangle Thick White Thick Gray 8 neg 





这 么 做 的 时 候 需 要 小 心 。 


可 靠 ， 甚 至 是 值得 怀疑 的 。 因 此 ， 








读者 必须 牢记 ， 使 用 常见 值 或 平均 值 补 全 样 例 不 太 


这 个 方案 应 该 少量 使 用 。 








应 该 使 用 更 精细 的 方法 ( 见 下 文 )。 


学 会 填补 缺失 值 。 有 时 候 ， 


























更 好 的 填补 空位 置 的 方法 是 使 用 互相 依赖 的 属性 值 。 例 如 ， 


重 越 重 。 如 果 某 个 身高 为 6.5$ft (1ft =0.3048m) 的 人 的 体重 未 知 ， 
人 口 的 平均 重量 来 计算 就 不 是 一 个 聪明 的 做 法 ， 
平常 人 重 。 因 此 ,使 




















对 于 相互 依赖 属 4 
包括 3 个 或 多 个 属性 。 在 这 种 
树 归纳 法 。 表 10.2 给 出 了 这 种 技术 的 伪 代 码 。 


令 了 为 原始 
1. 生成 一 个 新 








当 很 多 值 都 缺失 时 ， 


最 常见 值 或 平均 值 的 使 用 会 误导 学 习 过 程 。 一 个 














用 身高 大 于 6ft 的 人 来 计算 均值 会 更 合适 





性 就 不 著述 


s 了。 但 通常 情况 下 ， 相 互 关 系 要 复杂 得 多 ， 














表 10. 


的 训练 集 T, 


2 一 个 决定 未 知 属性 值 的 算法 





训练 集 ， 令 at 为 未 知 值 的 属性 。 
在 这 个 集 里 ，at 是 类 标签 
一 个 类 标签 (例如 ， 正 例 或 负 例 ) 被 当 作 男 一 个 属性 。 

















一 个 人 越 高 ， 他 的 体 
这 时 使 用 整个 
毕竟 ， 比 普通 人 高 的 人 肯定 会 比 


情况 下 ， 一 个 简单 的 预测 未 知 值 的 方法 依赖 于 决策 


; 样 例 被 所 有 剩余 属性 描述 ， 前 





2. 从 了 中 移 除 所 有 未 知 at 值 的 样 例 。 
3. 从 这 个 最 终 版 本 的 下 中 归纳 出 一 个 决策 树 。 
4. 利用 决策 树 决定 样 例 中 未 知 的 at 值 。 
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这 个 想法 很 简单 。 假 设 at 是 训练 集中 一 个 属性 ， 有 许多 问号 。 希望 用 最 可 能 
的 数值 代替 问号 ， 可 以 用 决策 树 的 方法 来 做 。 我 们 把 原来 的 训练 集 了 转变 为 有， 
在 这 个 训练 集 里 原来 的 类 标记 (例如 ， 正 例 或 负 例 ) 都 变 成 其 中 一 个 属性 ， 与 之 
HAR, at 会 被 当 作 一 个 类 标记 。 从 这 个 训练 集中 ， 我 们 移 除 了 所 有 ot 未 知 值 的 样 
例 。 在 剩 下 的 样 例 中 ， 我 们 归纳 决策 树 ， 然 后 使 用 决策 树 方法 来 填补 缺失 的 数值 。 











P 
F 你 学 到 了 什么 ? 





为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 


有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© HRA 
果 是 什么 ? 











=> 





。 请 描述 处 理 包 含 未 知 属性 值 样 例 时 用 到 的 方法 。 








生 值 而 出 现 的 主要 困难 是 什么 ? 它们 给 归纳 分 类 器 造成 的 典型 结 


讨论 它们 的 局 限 性 。 


o 请 解释 决策 树 归纳 法 是 如 何 被 用 于 确定 未 知 属性 值 的 。 


10.5 ”属性 选择 





在 许多 问题 域 里 ， 描 述 训 练 样 例会 用 到 许多 属性 : MTL, HEREZ, 
从 这 类 数据 源 中 学 习 的 成 本 极 高 。 而 且 ， 我们 需要 面 对 学 习 能 力 的 问题 ， 同 时 还 
有 不 相关 属性 或 多 余 属 性 的 问题 。 工 程 师 需要 熟练 选择 最 适合 属性 的 方法 。 

不 相关 以 及 多 余 的 属性 。 不 是 所 有 属性 都 是 等 同 的 。 有 一 些 属 性 的 值 对 样 例 











所 属 的 类 没有 影响 ， 另 一 些 则 是 多 余 的 ， 它 们 的 值 能 























通过 其 他 属性 的 数值 来 获 











得 ， 如 年 龄 能 够 通过 出 生日 期 得 到 。 这 种 类 型 的 属性 会 误导 一 些 归 纳 技术 。 例 如 ， 
不 相关 的 属性 (或 多 余 属 性 ) 扭曲 了 使 用 -NN 分 类 器 时 矢量 间距 离 的 计算 。 其 
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他 的 如 决策 树 则 没 那么 脆弱 ， 但 是 它们 可 能 需要 过 多 的 计算 开销 。 

超 长 属性 向 量 。 一 些 问题 域 ， 如 自动 文本 分 类 ， 被 成 千 上 万 的 属性 所 标记 ， 
这 经 常会 出 现 问题 。 其 中 一 个 困难 就 是 降低 了 学 习 能 力 : 归纳 分 类 器 倾向 于 过 湾 
拟 合 训练 数据 ， 在 未 来 样 例 上 测试 时 常 让 用 户 失 望 。 计 算 成 本 也 会 变 得 不 切实 际 ， 
寺 别 是 当 一 个 多 层 神经 系统 被 使 用 的 时 候 ， 每 一 个 额外 属性 都 会 增加 一 定数 量 的 
需要 训练 的 权重 ， 因 此 会 增加 计算 量 。 

而 且 ， 用 数 以 千 计 的 属性 来 描述 的 样 例 往往 是 非常 稀 玻 的 ， 这 会 误导 许多 机 
器 学 习 方法 。 例 如 ， 第 3 章 所 解释 的 k-NN 分 类 器 中 的 稀 玖 问题 。 

众所周知 ， 不 管 出 于 什么 目的 ， 这 些 属性 中 大 多 数 是 没 用 的 ， 应 该 被 处 理 掉 。 

选择 属性 的 过 滤器 方法 。 选 择 属 性 最 简单 的 方法 可 能 是 基于 所 谓 的 “过 滤 ”。 
关键 是 要 计算 现 有 分 类 任务 中 每 个 属性 的 “效用 ”， 然 后 把 它们 排序 。 选 择 前 N% 
的 属性 ， 截 至 点 N 的 选择 。 通 常 需要 经 过 反复 试验 得 出 。 

如 果 这 些 属性 是 离散 的 ， 那么 给 这 些 属性 排序 就 会 用 到 6. 3 节 中 的 信息 。 由 
于 二 值 化 机 制 的 存在 (如 6.4 节 )， 即 使 当 属性 是 连续 值 时 ， 也 可 使 用 信息 增益 。 
然而 ， 人 们 通常 更 喜欢 用 统计 方法 进行 相关 性 的 测量 。 

批评 属性 过 滤 方 法 的 一 个 原因 是 它 忽 视 了 属性 间 存 在 的 关系 。 结 果 很 难 或 几 
乎 不 可 能 去 识别 兄 余 属性 。 我 们 知道 ， 相 比 其 他 属性 ， 一 个 元 余 属性 不 会 带 来 任 
何 额外 信息 ， 它 的 信息 增益 还 很 高 。 

要 克服 这 些 弱点 有 一 个 相对 简单 的 方法 。 我 们 归纳 出 一 个 决策 树 ， 然 后 仅仅 
使 用 那些 在 测试 决策 树 内 部 结 点 时 遇 到 的 属性 。 细 心 的 读者 会 想起 在 第 8 章 讨论 
的 一 些 简 单 应 用 中 ， 这 个 方法 曾 被 使 用 过 。 

选择 属性 的 包装 方法 。 这 个 用 于 属性 选择 的 所 谓 包 装 器 (wrapper) 方法 更 强 
大 ， 计 算 也 更 昂贵 。 基 本 原理 是 ， 假 设 我 们 想 比 较 两 个 属性 集 4 MA 的 质量 ， 
在 原始 训练 集 7 中 ,我们 产生 两 个 训练 集 7, FT, ， 在 这 两 个 训练 集 里 ， 所 有 的 样 
例 都 有 和 7 一 样 的 类 标签 。 然 而 ,7 使 用 4, 描述 样 例 ，7, 使 用 4, 描述 。 从 两 个 
新 产生 的 训练 子 集中 ， 归 纳 出 两 个 分 类 器 ， 并 在 一 些 独立 的 评估 集 T, 上 评价 ， 能 
产生 更 高 性 能 的 属性 集 被 认为 更 好 。 

这 是 使 用 基于 搜索 的 算法 的 原理 ， 其 伪 代 码 见 表 10.3。 输 入 由 训练 集 7 和 一 
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系列 属性 4 组成。 输出 是 最 有 用 的 属性 子 集 Ss4。 开 始 时 ，$ 是 空 集 。 每 一 步 都 
从 4 中 选择 一 个 最 好 的 属性 添加 至 S 中 ,“ 最 好 ”是 由 5S 的 属性 描述 的 样 例 归 纳 的 
分 类 器 的 性 能 (在 一 个 独立 测试 集 里 ) 决定 的 。 如 果 5 没有 造成 分 类 性 能 的 改善 ， 
或 $ 中 没 更 多 属性 的 加 入 ， 那 么 这 个 算法 就 会 终止 。 



































表 10.3 连续 属性 选择 的 包装 器 方法 


将 预 分 类 样 例 的 可 用 集 分 为 两 部 分 : T, 和 7;。 设 4 为 属性 值 集合 。 建 立 一 个 空 集 5。 
1. 对 于 每 一 个 属性 值 ，at, s 4。 

1) 将 oz 添加 到 5S P, E T, MT, 中 的 所 有 样 例 都 由 5 中 的 属性 描述 。 

2) AT, 中 归纳 出 一 个 分 类 器 ， 然 后 用 T, 评价 它 的 性 能 ; 性 能 用 P, 表示 。 

3) MS 中 移 除 of 。 
2. Æ P, 中 找 出 最 大 值 ， 把 它 从 4 中 移 除 ， 然 后 添加 到 S 中 。 
3. 如 果 4 = 名， 则 结束 运算 ， 如 果 最 后 的 运算 性 能 不 再 增加 ， 那 么 将 最 后 的 值 从 5 中 

移 除 ， 结 束 运算 。 无 论 是 两 种 结果 的 哪 一 种 ，5 都 是 最 终 属 性 的 集合 。 

4. 返回 第 1 步 。 




















































































































P 
Hi 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 
e 从 哪 种 意义 上 我 们 说 一 些 属性 会 比 其 他 的 更 没 用 ? 为 什么 工程 师 经 常 不 能 
选择 正确 的 属性 来 描述 样 例 ? 
。 请 解释 和 讨论 以 过 滤 为 基础 的 选择 属性 的 方法 。 
e 描述 选择 属性 的 包装 方法 的 原理 。 请 解释 如 何 使 用 上 述 的 原则 ， 在 简单 的 
基于 搜索 的 方法 中 选择 属性 。 

















10.6 2m 





在 导论 课本 中 ， 一 些 问 题 值得 了 解 ， 但 不 需要 单列 一 节 。 但 是 它们 也 不 能 被 
忽略 ， 在 这 里 我 们 对 它们 做 一 个 简要 概括 。 
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数据 缺乏 规律 性 。 假 设 你 被 要 求 从 随机 数 发 生 器 产生 的 训练 样 例 中 归纳 一 个 
分 类 需 ， 其 中 所 有 属性 值 都 是 随机 的 ， 类 标签 也 是 。 显 然 ， 这 些 数 据 训 无 规 
律 一 一 然而 机 器 学 习 技术 能 够 以 零 错 误 率 从 训练 集中 归纳 出 一 个 分 类 带 。 当 然 ， 
在 训练 集中 完美 的 表现 并 不 会 在 未 来 的 样 例 中 相似 地 表现 。 

这 个 情况 建议 我 们 用 一 个 简单 的 机 制 来 测量 数据 规律 性 的 程度 。 这 个 想法 将 
数据 简单 地 分 为 两 个 子 集 : 一 个 是 训练 集 ， 一 个 是 测验 集 。 分 类 融 从 训练 集中 归 
纳 出 来 ， 然 后 被 应 用 到 测试 集 上 。 在 随机 数据 的 情况 下 ， 我 们 观察 到 在 训练 样 例 
中 只 有 一 个 小 的 (如 果 有 ) 错误 率 ， 但 在 测试 样 例 上 的 结果 会 很 差 。 相 反 地 ， 数 
据 越 有 规律 ， 测 试 集中 的 结果 就 越 好 。 

多 标签 域 。 在 一 些 域 里 ， 一 个 样 例 可 以 同时 属于 两 个 或 更 多 的 类 。 例 如 ， 一 
个 文档 文本 可 以 被 说 成 代表 上 营养、 饮食 、 竞 技 、 科 学 ， 可 能 还 有 许多 其 他 分 类 。 
实际 上 ， 像 表 10.4 上 半 部 分 所 示 的 训练 集 ， 属 性 向 量 就 用 一 些 样 例 名 所 代替 。 注 
意 ， 那 里 大 多 数 的 样 例 都 会 被 标注 两 个 或 更 多 个 类 标签 。 

对 于 这 种 域 ， 最 常见 的 方法 是 为 每 个 类 归纳 一 个 单独 的 二 元 分 类 融 。 更 确切 
地 说 ,第 i 个 类 的 分 类 右 是 从 训练 集 7 中 归纳 出 来 的 ， 这 个 分 类 器 会 包括 与 新 标 
签 相同 的 样 例 。 如 果 原 始 训练 集 标记 为 C, WET, 中 样 例 类 是 “1”， 如 果 相 反 ， 










































































则 是 “0”。 
表 10.4 下 半 部 分 所 示 证 明了 这 一 点 。 因 为 原始 训练 集 包含 5 个 类 标签 ， 即 
Ci, e, Cs, 创建 5 AAMER, MT, e, Tso AT, FR, BAT C 类 分 类 


器 。 要 注意 一 些 新 的 训练 集 T, 会 表现 为 不 平衡 的 类 ， 就 如 10. 2 节 讨 论 过 的 那样 。 
在 这 个 具体 的 例子 里 ，7, 和 7 就 是 这 样 。 





表 10.4 多 标签 域 的 训练 集 被 转化 成 5 个 二 元 训练 集 ， 
每 个 集合 对 应 一 个 类 标签 
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(2) 

Ti T. T, T, T; 
ex; 1 ex; 1 ex, 0 ex, 0 ex; 0 
ex, 0 ex, 1 ex, 0 ex, 0 ex, 0 
ex; 1 ex; 0 ex; 1 ex; 0 ex; 1 
ex, 0 ex, 1 ex, 1 ex, 0 ex, 0 
ex; 0 ex; 1 ex; 0 ex; 1 ex; 0 





















































工程 师 需要 决定 是 否 要 解决 多 数 类 从 抽样 或 是 少数 类 过 抽样 的 问题 。 

多 标签 样 例 的 问题 。 一 些 域 里 的 多 标签 样 例 非 常 多 。 因 此 在 文本 分 类 里 ， 一 
个 人 很 容易 遇 到 成 百 上 千 的 样 例 ， 每 一 个 都 有 数 以 千 计 的 属性 来 描述 ， 以 及 有 数 
以 千 计 的 类 做 标签 。 要 从 训练 集 里 归纳 那些 数 以 千 计 的 二 进 制 分 类 器 ， 计 算 会 非 
常 昂 贵 。 的 确 ， 如 此 昂贵 以 至 于 要 采取 特别 的 措施 来 使 学 习 变 得 可 行 。 分 类 需 的 
生 能 评估 也 并 不 简单 。 每 一 个 被 归纳 出 来 的 分 类 器 可 以 有 不 同 的 性 能 ， 因 此 平均 
很 有 必要 。 在 11. 4 节 中 会 对 此 有 更 详细 的 说 明 。 

分 层 组 织 类 的 说 明 。 在 一 些 域 里 (经常 在 多 标签 域 中 ， 前 文 有 解释 ) ， 这 些 类 
并 不 完全 相互 独立 。 一 个 完全 分 层 可 能 存在 ， 如 图 10.4 中 展示 出 来 的 一 小 部 分 ， 
每 一 个 这 些 类 的 归纳 都 需要 相应 地 排列 。 例 如 ， 首 先 归纳 的 是 最 上 面 的 类 ; 然后 ， 
归纳 了 归 入 它 的 类 ， 同 样 也 最 有 效 地 利用 父 类 的 标签 。 











= 











x 


图 10.4 有 时 类 是 分 层 组 织 的 ， 这 种 分 层 可 能 会 提前 知道 ， 或 被 归纳 程 
序 发 现 
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归纳 过 程 并 不 像 看 起 来 那么 简单 。 一 两 个 特别 的 问题 使 任务 更 复杂 。 它 们 中 
的 其 中 一 个 就 是 所 谓 的 误差 传播 : 如 果 一 个 样 例 被 分 到 一 个 错误 的 域 ， 则 分 类 器 
会 尝试 用 这 个 信息 把 它 放 在 一 个 子 集 里 ， 因 此 会 把 错误 扩大 到 下 一 个 层次 。 男 一 
个 很 复杂 的 情况 就 是 ， 几 乎 所 有 时 候 ， 当 训练 集 和 层次 里 单个 结 点 联系 在 一 起 时 ， 
就 会 非常 不 平衡 。 





日 











P 
Li 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 


有 任何 


10.7 








困难 ， 请 回顾 本 节 的 相关 内 容 。 


请 解释 当 要 测量 数据 中 规律 性 的 程度 时 ， 要 如 何 使 用 机 器 学 习 。 请 列举 这 
类 规律 性 比较 低 的 域 。 

什么 是 多 标签 域 ? 在 这 些 域 中 归纳 的 最 简单 的 方法 是 什么 ? 工程 师 会 遇 到 
的 典型 问题 是 什么 ? 

解释 当 域 用 层次 组 织 的 类 标记 时 ， 应 考虑 的 原则 及 基本 问题 。 





总 结 和 历史 简 评 








7 草 提 供 了 一 些 数 学 讨论 以 支持 关于 “没有 偏好 就 没有 学 习 ” 的 言论 。 
某 些 实际 问题 使 我 们 相信 事情 就 是 这 样 的 。 
有 时 类 的 含义 依赖 具体 的 语 境 ; 这 个 语 境 会 随时 间 改 变 ， 这 种 情况 下 我 们 
会 面临 时 变 类 的 问题 。 
本 书 前 面 章节 中 的 经 典 机 噩 学 习 技术 假定 训练 集中 的 两 个 〈 或 全 部 ) 类 都 
能 被 充分 表示 。 但 这 个 要 求 常常 不 能 被 满足 ， 工 程 师 要 处 理 不 平衡 训练 集 
所 带 来 的 困难 。 
对 于 不 平衡 训练 集 问题 的 最 典型 的 方法 就 是 多 数 类 从 采样 以 及 少数 类 过 
采样 。 
在 许多 训练 集中 ， 一 些 属性 值 是 未 知 的 ， 一 个 可 能 的 解决 方案 是 用 所 给 属 
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性 中 最 常见 值 或 平均 值 来 代替 未 知 属性 。 
。 工程 师 常常 需要 选择 最 合适 的 属性 集 。 这 里 可 以 使 用 两 个 基本 的 方法 : 过 
滤器 方法 和 包装 器 方 法 。 
。 在 某 些 领域 (如 文本 分 类 ) ， 每 一 个 样 例 可 同时 被 标记 为 多 个 类 别 。 这 就 
是 所 谓 的 多 标签 域 。 通 常 来 说 ， 通 过 对 每 个 类 归纳 一 个 单独 的 二 元 分 类 
器 ， 问 题 就 能 解决 ， 然 后 平行 使 用 所 有 这 些 分 类 器 。 
。 有 时 候 ， 类 是 按 层次 排序 的 ， 这 在 多 标签 域 中 很 常见 。 经 常 可 提前 知道 
层次 。 
历史 简 评 。 在 机 器 学 习 中 ， 对 不 同 偏好 加 以 区 分 是 由 戈 登 (Gordon) 和 德 
WRT?) (desJardin) 最 早 想到 的 。 终 身 学 习 的 原理 是 斯 伦 (Thrun) MH 
WK?! (Mitchell) SCHEMA, RE” (Turney) 和 卡 扎 特 55] ( Katzetal) 则 
是 最 时 发 表 终 身 学 习 论文 并 产生 一 定 影响 的 人 。 库 巴特 (Kubat) 介绍 了 时 
变 概念 的 归纳 ， 而 威 德 默 (Widmer) FE EVR! (Kubat) 共同 完成 了 一 些 早 
期 算法 。 据 本 书 作 者 所 知 ， 麦 卡 勒 姆 ”i (McCallum) 发 表 了 最 早 的 多 标签 类 的 
论文 。 
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10.8 巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 








练习 


1. 考虑 表 10.5 中 出 现 的 训练 集 ， 如 何 用 最 常见 值 代替 缺失 的 数值 (问号 )? 
为 了 达到 这 个 目的 如 何 使 用 决策 树 ? 
2. 一 旦 用 确切 的 数值 来 代替 表 10.5 中 的 问号 ,识别 出 两 个 属性 以 得 到 最 高 


的 信息 增益 。 
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表 10.5 “未 知 值 ”的 简单 练习 



























































Crust Filling 
样 例 Shape 类 别 
Size Shade Size Shade 
exl Circle Thick Gray Thick Dark pos 
ex2 Circle Thick White Thick Dark pos 
ex3 Triangle Thick Dark ? Gray pos 
ex4 Circle Thin White Thin ? pos 
ex5 Square Thick Dark Thin White pos 
ex6 Circle Thick White Thin Dark pos 
ex7 Circle Thick Gray Thick White neg 
ex8 Square Thick White Thick Gray neg 
ex9 Triangle Thin Gray Thin Dark neg 
ex10 Circle Thick Dark Thick White neg 
exll Square Thick White Thick Dark neg 
ex12 Triangle ? White Thick Gray neg 
HA 


Tass 


1. 课本 中 强调 了 两 种 基本 类 型 错误 的 不 同 : 


题 





同样 ， 请 给 予 解 释 。 
3. 假设 一 个 贝 叶 斯 分 类 器 要 被 月 


Ji 


4， 本 节 中 ， 不 平衡 训练 集 


i 
AN 























一 些 由 错误 的 偏好 导致 (表示 的 
或 过 程 的 ) ， 另 一 种 由 于 训练 数据 的 变化 而 导致 。 给 出 一 个 实验 过 程 ， 
工程 师 知道 从 这 两 种 不 同 来 源 造成 给 定 域 上 的 整体 错误 率 是 多 少 。 

2. 提升 (Boosting) 算法 对 基于 变化 的 错误 表现 比较 健壮 ， 请 解释 为 什么 会 








使 


羊 。 进 一 步 地 ， 在 9.8 节 中 不 均匀 地 提升 意味 着 减少 基于 偏好 的 错误 。 


日 于 不 平衡 的 两 类 域 里 ， 一 个 类 中 的 样 例 数量 





E 架 中 进行 了 探索 ， 其 中 


远 超过 另 一 个 类 。 这 个 分 类 器 是 否 会 和 最 近邻 方法 一 样 对 这 个 情况 很 敏 
感 ? 请 用 确切 的 论据 来 支持 你 的 观点 并 用 一 个 实验 验证 。 
的 问题 仅仅 在 两 类 域 的 





P f$ 


一 个 样 例 要 么 是 正 例 ， 要 么 是 负 例 。 如 何 将 同一 个 问题 概括 到 拥有 超过 两 


种 类 的 域 里 ? 


第 10 章 
了 解 一 些 实践 知识 


提出 一 些 具体 的 情形 ， 使 其 中 不 平衡 类 在 这 样 的 多 类 域 中 是 





一 个 问题 ， 或 者 不 是 问题 。 


上 机 实验 





1. 写 一 个 计算 机 程序 ， 能 够 接受 一 个 训练 集 作为 输入 ， 在 这 个 训练 集中 有 许 
多 缺失 的 属性 值 ， 把 改善 后 的 训练 集 作为 输出 。 这 个 训练 集中 离散 属性 的 
缺失 值 用 最 频繁 值 来 代替 ， 连 续 属 性 的 缺失 值 用 平均 值 代替 。 完 成 一 个 计 

















算 机 程序 ， 通 过 实验 来 确定 缺失 值 被 蔡 换 后 ， 对 从 这 些 数据 中 归纳 出 的 决 





策 树 的 性 能 
IN 


2. 选择 一 些 公 





有 帮助 还 是 有 害 。 


是 
共 域 数据 ， 如 从 UCI 资料 库 ? 中 。 确 保 这 个 域 中 至 少 有 一 个 二 


进 制 值 属性 ， 本 练习 建议 将 这 个 二 进 制 属性 代表 一 个 语 境 。 把 训练 数据 分 














为 两 个 子 集 ， 每 个 代表 不 同 的 语 境 (不 同 的 二 进 制 属性 的 值 )。 然 后 从 每 
个 子 集中 归纳 出 对 应 的 语 境 依赖 的 分 类 噩 。 假 设 每 次 都 清楚 要 使 用 哪个 分 
类 需 ， 则 这 两 个 分 类 融和 从 原始 训练 集中 归纳 出 来 的 “通用 ”分 类 需 相 
比 ， 性 能 会 好 多 少 ? 








O 网 址 是 www. 


ics. uci. edu/ ~ mlearn/ MLRepository. html, 
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前 面 的 章节 假设 在 机 需 学 习 中 的 性 能 评估 是 一 件 很 简单 的 事情 。 工 程 师 只 
需要 将 归纳 得 到 的 分 类 器 应 用 到 已 知 类 别 的 样 例 集合 ， 然 后 计算 出 分 类 器 出 现 
的 错误 即 可 。 但 是 实际 上 ， 事 情 并 不 是 那么 简单 。 错 误 率 很 少 能 全 面 地 反映 情 
况 ， 而 且 在 一 些 情况 中 它 可 能 会 起 误导 作用 。 这 就 是 为 什么 工程 师 希望 熟悉 其 
他 标准 来 测试 分 类 器 性 能 的 原因 。 这 一 前 的 知识 能 够 帮助 工程 师 们 选择 出 最 佳 
效益 行为 。 

对 分 类 需 的 评价 如 此 之 多 。 这 些 机 器 学 习 技 术 在 给 定 问题 域 中 的 适用 性 略 有 
不 同 ? 将 预 分 类 样 例 随 机 分 为 两 个 子 集 并 不 是 最 好 的 方法 〈 一 个 用 于 归纳 ， 一 个 
用 于 测试 ) ， 尤 其 是 当 训 练 集 很 小 的 时 候 ， 随 机 划分 的 子 集 不 能 准确 地 代表 给 定 的 
问题 域 。 为 了 获得 更 可 靠 的 结果 ， 有 必要 重复 做 这 些 随机 划分 的 过 程 。 

本 草 着 重 解 决 了 这 些 问 题解 释 了 量化 分 类 絮 性 能 的 两 个 标准 ， 并 且 探 讨 了 
一 些 常用 机 噩 学 习 算 法 的 实验 评 佑 策略。 不 过 对 结果 的 统计 评估 问题 将 会 在 下 一 


章 中 讨论 。 















































11.1 基本 性 能 标准 


首先 ， 我 们 会 给 出 错误 率 和 分 类 准确 率 的 定义 。 在 这 之 后 ， 如 果 支 持 正确 分 
类 的 证 据 很 弱 ， 我 们 将 会 研究 拒绝 这 种 分 类 的 后 果 。 

正确 和 错误 的 分 类 。 让 我 们 首先 定义 在 这 一 章 中 将 会 使 用 的 4 个 基本 量 。 当 
用 已 知 类 别 的 样 例 来 测试 一 个 分 类 器 时 ， 我 们 仅仅 需要 考虑 以 下 4 个 不 同 的 结果 : 
中 样 例 是 正 类 的 ， 分 类 器 也 正确 地 将 其 识别 为 “真正 类 ”(True Positive); OHA 
是 负 类 的 ， 分 类 器 也 正确 地 将 其 识别 为 “ 真 负 类 ” (True Negaive) ; @@ 样 例 是 正 类 
的 ， 但 是 分 类 器 将 其 标识 为 “ 假 负 类 ” (False Negative); @ 样 例 是 负 类 的 , 但 是 
分 类 器 将 其 标识 为 “ 假 正 类 ” (False Positive) 。 

在 将 分 类 器 应 用 于 一 个 完整 的 样 例 集 (真实 类 别 已 知 ) 时 ， 这 4 个 结果 中 的 
每 一 个 都 会 以 不 同 的 数目 出 现 ， 而 且 这 些 数值 接 下 来 会 被 用 在 性 能 标准 中 。 表 示 
4 种 结果 的 符号 列 在 表 11. 1 中 。 具 体 来 说 ，Nnm 是 真正 类 的 数目 ，Nm 是 真 负 类 的 


































































































数目 ，Nm 是 假 正 类 的 数目 ，Nw 是 假 负 类 的 数目 。 在 整个 样 例 集 合 了 中 ， 只 可 能 
有 这 4 种 分 类 。 因 此 ， 集 合 的 大 小 |7 | 等 于 它们 的 和 ， 即 | 了 | = Nm + Nyy + Nm 


+ Noy o 





表 11.1 性 能 标准 定义 中 的 基本 量 。 例 如 ，Ne 是 假 正 类 的 数目 ， 即 
负 类 样 例 被 分 类 器 错误 地 分 类 为 正 类 的 样 例 




















分 类 器 返回 的 类 标签 
正 类 负 类 
真实 类 标签 ， 正 > Nm Nex 
RE Nm Noy 























这 里 需要 提醒 读者 注意 的 是 ， 正 确 分 类 的 数目 等 于 真正 类 的 数目 加 上 真 负 类 
的 数目 ， 即 Nop + Noy ; 而 错误 分 类 的 数目 等 于 假 正 类 的 数目 加 上 假 负 类 的 数目 ， 
即 Nep + Nexo 

错误 率 和 分 类 准确 率 。 分 类 器 的 错误 率 刁 ， 就 是 分 类 器 在 一 个 给 定 样 例 集 上 
发 生 错误 的 频率 。 这 是 由 不 同 的 错误 数目 ， 即 Ne + New， 除 以 样 例 总 数 ， 即 Nm 
+ Nyy + Ne + Nsw 计算 而 来 。 














E= Nyp + Ney 
Npp + New + Nop + Noy 


有 时 候 ， 工 程 师 更 倾向 于 用 相反 的 数量 工作 ， 即 分 类 准确 率 Ace, 分 类 咒 在 一 
个 给 定 样 例 集中 正确 分 类 的 频率 。 分 类 准确 率 由 正确 分 类 的 数目 ， 即 Ne + Noy, 
除 以 样 例 的 总 数目 计算 得 到 。 注 意 ，4cc =1-E, 


(11.1) 








Ty 








Nop + Now 
Npp + Nun + Nop + Now 


拒绝 一 个 样 例 。 正 如 本 书 第 8 章 第 1 小 节 所 介绍 的 ， 当 讨论 光学 字符 辩 
识 时 ， 如 果 支 持 正确 分 类 的 证 据 不 够 充分 ， 那么 分 类 右 应 该 可 以 被 允许 拒绝 
分 类 。 这 个 动机 很 简单 : 在 某 些 域 中 ,错误 分 类 的 代价 比 完全 不 分 类 的 代价 
要 更 高 。 

关于 拒绝 分 类 的 例子 并 不 难 找 。 一 个 分 类 器 拒绝 返回 精确 邮政 编码 的 结果 就 


Acc = 





(11.2) 














是 要 人 工 操作 决定 信件 应 该 发 往 何 地 。 需 要 明确 的 是 ， 这 种 人 工 处 理 比 自动 处 理 
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更 加 昂贵 。 但 是 另 一 方面 ， 分 类 器 返回 一 个 错误 的 邮政 编码 会 导致 信件 被 送 到 一 
个 错误 的 地 址 ， 进 而 导致 信件 交付 的 严重 延迟 。 后 者 的 成 本 经 常 比 “ 手 动 ”处理 
更 高 。 类 似 地 ， 一 个 错误 的 医学 诊断 往往 比 压根 不 给 出 诊断 的 代价 更 加 昂贵 ; 缺 
乏 的 信息 能 通过 额外 的 检验 来 弥补 ,但 是 一 个 错误 的 判断 会 导致 选择 一 个 上 璀 大 于 
利 的 治疗 。 

这 就 是 为 什么 当 所 有 类 别 的 证 据 都 不 充分 时 ,分 类 器 应 该 偶尔 拒绝 对 样 例 进 
行 分 类 的 原因 。 在 一 些 机 器 学 习 的 算法 里 ， 证 据 不 足 一 词 很 容易 定义 。 例 如 ， 假 
设 在 一 个 7-NN 分 类 器 中 ,4 个 近邻 是 正 类 的 ， 剩 余 的 3 个 是 负 类 的 。 最 终 的 结 
是 4:3， 两 种 类 别 的 数目 似乎 “不 相 上 下 ”。 更 常见 的 是 ， 工程师 往往 会 为 胜出 类 
和 另外 一 类 的 票选 最 小 差异 值 设 定 一 个 临界 值 。 

在 贝 叶 斯 分 类 器 中 ， 这 个 技术 很 容易 被 实现 。 如 果 样 例 中 两 个 最 可 能 类 别 的 
概率 差异 小 于 用 户 设置 的 最 小 差异 值 ， 那 么 这 个 样 例 就 会 因为 太 模糊 以 至 于 不 能 
分 类 而 被 拒绝 。 在 神经 网 络 中 也 有 类 似 的 事情 发 生 : 通过 比较 相应 输出 神经 元 的 
返回 信息 一 一 如 果 没 有 明显 的 胜出 方 ， 那 么 就 要 拒绝 分 类 。 

在 其 他 的 分 类 器 中 ， 如 决策 树 ， 拒 绝 机 制 的 实现 则 不 是 这 样 直 接 ， 而 是 只 有 
实施 了 “额外 的 技巧 ” 才 有 可 能 完成 。 

拒绝 分 类 的 优点 和 缺点 。 拒 绝对 一 个 样 例 进 行 分 类 当然 会 更 少 出 错 。 毫 无 疑 
































































































































是 这 种 谨慎 性 不 应 该 被 夸大 。 错 误 率 得 以 降低 ， 几 乎 接近 0 似乎 是 一 件 好 事 。 但 
如 果 这 个 低 错 误 率 是 拒绝 对 几乎 所 有 样 例 进行 分 类 而 得 到 的 ， 那 么 这 个 分 类 噩 就 
变 得 不 实用 了 。 这 两 方面 ( 低 错 误 率 和 几乎 不 分 类 ) 中 的 哪 一 个 更 重要 ， 将 取决 
于 给 定 应 用 的 实际 情况 。 

图 11. 1 形象 地 展示 出 了 这 类 决策 权衡 的 本 质 。 横 轴 代 表 了 一 个 参数 调整 拒绝 
率 的 能 力 。 自 左 向 右 ， 拒绝 率 增 大 ， 然 而 错误 率 不 断 降低 ， 直 到 极限 情况 ， 即 所 
有 样 例 被 拒绝 。 从 这 个 角度 看 ， 零 错误 率 意 味 着 我 们 有 一 个 毫 无 用 处 的 分 类 器 。 
由 此 获得 的 经 验 是 明确 的 。 尽 管 偶 尔 拒 绝 不 明确 的 样 例 很 有 意义 ， 但 是 需要 慎 用 


这 条 原则 。 












































错误 率 拒绝 率 





图 11.1 证 据 不 足 时 允许 分 类 器 拒绝 对 一 个 样 例 分 类 ， 从 而 使 错误 率 减 
小 。 极 端 情况 下 ， 所 有 样 例 被 拒绝 时 错误 率 会 降 至 0 


F 你 学 到 了 什么 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 

。 请 给 出 假 负 类 、 假 正 类 、 真 假 类 和 真正 类 的 定义 。 

。 请 写 出 分 类 准确 率 和 错误 率 的 公式 ， 并 解释 这 两 个 准则 是 如 何 相 互联 
系 的 ? 

。 分 类 器 在 什么 时 候 会 拒绝 一 个 样 例 (如 什么 时 候 会 拒绝 分 类 )? 如 何在 不 
同类 型 的 分 类 器 中 实现 这 个 操作 ? 

。 拒绝 率 和 错误 率 间 有 怎样 的 联系 ? 两 者 间 的 平衡 是 什么 ? 在 什么 情况 下 拒 
绝 分 类 是 有 用 的 ? 在 什么 情况 下 拒绝 分 类 反而 有 坏处 ? 














11.2 ”精度 和 查 全 率 


在 一 些 应 用 中 ， 负 类 样 例 的 数量 远 远 多 于 正 类 样 例 。 当 这 种 情况 发 生 时 ， 
错误 率 给 出 的 是 对 分 类 带 性 能 误导 性 的 判断 。 为 了 一 探究 竞 ， 考虑 所 有 样 例 中 
AA 2% 的 样 例 是 正 的 ， 剩 下 98% 的 样 例 都 是 负 的 的 情况 。 一 个 分 类 器 若 把 该 
集合 中 的 任何 样 例 都 分 类 为 负 类 ， 此 时 它 的 正确 率 将 达到 98% 一 一 这 可 能 看 起 











236 


机 器 学 习 导 论 




















来 是 一 个 不 几 的 成 绩 。 然 而 ， 这 样 一 个 永远 不 能 辨识 出 正 类 样 例 的 分 类 器 是 一 
无 是 处 的 。 

重审 不 平衡 类 别 。 由 于 不 平衡 类 的 情况 很 常见 ， 因 此 这 种 观察 是 值得 的 。 在 
第 8 章 和 第 10 章 我 们 就 磁 到 了 这 样 的 情况 ， 并 且 在 其 他 的 应 用 中 我 们 也 可 以 找到 
不 平衡 类 。 例 如 ， 在 自动 信息 检索 方面 ， 用 户 可 能 想 找 到 一 篇 与 之 相关 的 科学 文 
档 ， 这 就 类 似 是 “ 分 类 器 的 性 能 评估 。” 对 这 个 特别 的 用 户 来 说 ， 涉 及 此 题材 的 
文章 仅仅 占 了 成 百 上 千 万 的 电子 图 书馆 文件 中 的 一 小 部 分 。 同 样 地 ， 患 某 一 种 特 
殊 疾 病 的 病人 在 整个 人 口中 也 是 相对 罕见 的 。 对 于 很 少 出 现 拖欠 按揭 付款 或 信用 
卡 的 欺诈 使 用 情况 来 说 也 是 一 样 的 。 一 个 经 验 丰 富 的 工程 师 会 认为 ,现实 中 的 大 
部 分 应 用 在 某 种 程度 上 都 存在 不 平衡 类 别 的 现象 。 

在 这 种 情况 下 ， 错 误 率 和 分 类 准确 率 几 乎 无 法 告诉 我 们 分 类 器 的 实际 效用 。 
我 们 需要 的 是 一 个 针对 仅 由 很 少 样 例 代 表 但 很 重要 的 类 别 标准 ， 而 不 是 针对 两 个 
(或 所 有 ) 类 别 的 平均 性 能 。 下 面 将 介绍 一 些 标准 。 

精度 。 精 度 是 真正 类 Nm ， 与 被 分 类 器 标识 为 正 类 的 所 有 样 例 Ne + Nm 的 百 分 
比 。 这 个 比值 能 通过 式 (11.3) 计算 得 到 : 


= Nop 
Nop + Nip 


换 名 话说， 精度 就 是 分 类 器 把 一 个 样 例 标识 为 正 类 并 正确 的 概率 。 
查 全 率 。 查 全 率 是 指正 类 样 例 被 (分 类 融 ) 正确 辨认 为 正 类 的 概率 。 因 此 这 
个 概率 值 能 由 真正 类 的 数目 Ni,。， 除 以 给 定 集合 的 正 类 样 例 的 总 数 Ne + NA 得 到 。 

































































Pr 





(11.3) 











= Nop 
Nop + Nun 


注意 , 式 (11.3) MA (11.4) 仅 在 分 母 上 有 差异 。 这 很 合理 ， 因 为 精度 代 
表 真 正 类 样 例 在 分 类 需 辩 识 出 的 正 类 样 例 中 出 现 的 频率 ， 而 查 全 率 是 真正 类 样 例 
在 样 例 集 所 有 正 类 样 例 中 出 现 的 频率 。 
两 种 标准 的 说 明 。 表 11. 2 说 明 在 一 个 包含 了 正 类 和 负 类 两 个 不 平衡 类 别 的 简 
单 域 中 这 两 个 标准 的 行为 。 归 纳 分 类 需 在 表现 出 高 分 类 准确 率 的 同时 也 会 得 到 差 
的 精度 和 查 全 率 。 具 体 来 说 ， 精 度 Pr = 0.40 意味 着 在 50 个 被 分 类 器 标识 为 正 类 


Re 





(11.4) 
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， 其 余 的 30 个 是 假 正 类 。 对 于 查 全 率 ， 情 况 甚 
样 例 中 ， 只 有 20 个 被 分 类 屁 正 确 辨识 。 




















的 样 例 中 ， 仅 仅 有 20 个 是 真正 类 
至 更 糟糕 ， 在 测试 集 的 70 个 正 类 








表 11.2 精度 和 查 全 率 的 说 明 
假设 已 归纳 出 一 个 分 类 器 。 对 测试 集 的 评估 结果 如 下 表 所 示 : 





























分 类 器 返回 的 类 标签 
正 类 负 类 
真实 类 标签 : 正 类 20 50 
负 类 30 900 

















根据 表 中 的 数据 ， 可 以 得 到 精度 、 查 全 率 和 准确 率 的 值 如 下 : 
y ze 20 _ Ay wg 20 _ 准 ze _ 920 _ 
精度 = 5 =0.40 EEX- a =0.29 WMZ = 1600 =0.92 
假定 修改 分 类 需 中 的 参数 以 增强 它 在 正 类 样本 上 的 表现 。 修 改 后 ， 对 测试 集 的 评 佑 结 
果 如 下 表 所 示 。 






































分 类 器 返回 的 类 标签 
正 类 m% 
真实 类 标签 : 正 类 30 70 
负 类 20 880 




















根据 表 中 的 数据 ， 可 以 得 到 精度 、 查 全 率 和 准确 率 的 值 如 下 : 
J r 30 _ Ay a- 30 _ 准 xz 910 _ 
精度 = 50 70 60 查 全 率 =j00=0.30 准确 率 = 1000 7® 9! 
读者 可 以 发 现 ， 精 度 被 大 大 改善 了 ， 然 而 查 全 率 几 乎 不 受 影 响 。 需 要 注意 的 是 ， 分 类 
器 的 准确 率 也 没有 提高 。 





假定 工程 师 决定 通过 修改 分 类 器 的 一 些 内 部 参数 来 改善 这 种 情况 ， 并 且 假 设 
这 些 修 改 能 够 增加 真正 类 样 例 的 数量 (从 Ne =20 到 Nm =30) ， 减 少 假 正 类 样 例 
的 数量 (从 Ne =30 到 Ne =20)。 另 一 方面 ， 假 负 类 样 例 的 数量 也 会 上 升 : 从 
Nyy =50 到 Na =70。 表 11.2 中 的 计算 表明 查 全 率 是 几乎 不 受 影响 的 ， 但 是 精度 
得 以 提高 ， 从 Pr =0. 40 增加 到 Pr =0. 60。 实 际 上 ， 尽 管 精度 有 所 提高 ， 但 分 类 准 
确 率 几 乎 保持 不 变 ， 甚 至 会 下 降 一 些 。 

高 精度 何 时 重要 。 在 某 些 问题 域 中 ， 精 度 比 查 全 率 更 为 重要 。 例 如 ， 当 你 在 
一 家 网 店 买 东西 时 ， 他 们 的 推荐 系统 经 常会 回馈 如 “有 买 了 X 的 顾客 同时 也 买 了 
Y” 这 样 的 信息 。 该 信息 的 意图 明显 是 想 诱导 你 也 购买 Y。 





也 | 
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推荐 系统 有 时 是 通过 机 器 学 习 技 术 对 公司 历史 数据 进行 分 析 完成 的 ” 。 在 评 
估 它 们 的 性 能 时 ， 工 程 师 希 望 得 到 较 高 的 精度 。 这 样 ， 顾 客 也 许 会 对 推荐 机 制 感 
到 更 加 满意 ， 否 则 很 可 能 忽略 推荐 内 容 。 

在 这 些 问 题 域 中 ， 查 全 率 的 价值 是 不 重要 的 。 网 店 推荐 清单 的 规模 只 能 是 有 
限 的 ， 因 此 即使 系统 只 能 辨认 出 一 小 部 分 顾客 喜欢 的 产品 也 没 太 大 关系 。 

高 查 全 率 何 时 重要 。 查 全 率 同 精度 恰恰 相反 ， 在 其 他 问题 域 中 ， 查 全 率 更 为 
重要 。 这 种 情况 在 医药 诊断 中 比较 常见 。 例 如 ， 一 个 患 X 疾病 的 病人 被 确诊 患 X 
疾病 ， 即 真正 类 。 上 患 X 疾病 的 病人 没 被 诊断 出 患 X 疾病 ， 即 假 负 类 。 这 是 医生 想 


Nop 
Nop + Nun 






































要 避免 的 一 种 情况 一 一 这 意味 着 Na 应 该 要 小 。 在 查 全 率 的 定义 Re = 中 ， 


假 负 类 的 数量 在 分 母 上 ， 因 此 小 的 WA 意味 着 高 的 查 全 率 。 

ROC 曲线 。 在 许多 分 类 器 中 ， 通 过 微调 一 定 的 参数 能 修改 We 和 Ne 的 值 ， 
因而 〈 至 少 在 一 定 程度 上 ) 会 影响 分 类 噩 的 表现 。 例 如 ， 查 全 率 的 提高 是 以 精度 
的 降低 为 代价 的 ， 反 之 亦 然 。 在 某 些 问题 域 中 ， 当 用 户 需要 决定 这 两 个 量 哪个 更 
重要 时 ， 这 个 曲线 就 派 上 用 场 了 。 

读者 会 发 现 “微调 ”有 很 多 种 方式 。 因 此 ， 在 k-NN 分 类 器 中 ， 工 程 师 会 将 
样 例 标识 为 负 类 ， 除 非 有 充足 的 证 据 证 明 该 样 例 为 正 类 。 例 如 ， 如 果 7 个 最 近邻 
中 有 4 个 是 正 类 ， 则 分 类 需 依 然 被 指示 返回 负 类 (尽管 推荐 正 类 的 样 例 稍 多 ) 。 这 
样 一 来 ， 假 正 类 的 数目 得 以 减少 ， 可 是 这 经 常 意味 着 假 负 类 的 数目 会 增加 。 通 过 
将 任何 样 例 都 主张 为 负 类 来 实现 假 正 类 数目 We 的 大 程度 减少 〈 假 负 类 的 数目 Na 
会 增加 ) ， 除 非 7 个 最 近邻 里 有 5 (或 6) 个 样 例 是 正 类 。 

相似 的 情况 在 贝 叶 斯 分 类 顺和 神经 网 络 中 很 容易 实现 。 其 中 的 理念 是 一 样 的 : 
除非 有 充足 的 证 据 证 明 决 策 是 错误 的 ， 和 否则 样 例 都 会 被 标识 成 首选 类 别 。 

不 同 参 数值 下 分 类 器 的 表现 能 够 通过 ROC 曲线 直观 展示 。 如 图 11.2 Fras, 
横 轴 代 表 负 类 样 例 的 错误 率 ， 纵 轴 代 表 正 类 样 例 的 分 类 准确 率 。 图 11. 2 展示 了 两 
MIRAR ROC 曲线 ，c, 和 c,。 理 想 情况 下 ， 我 们 希望 曲线 达到 左上 角 ， 即 负 类 







































































O 所 用 到 的 具体 技术 超出 本 书 讨论 的 范围 ， 在 这 里 不 做 介绍 。 























样 例 的 错误 率 为 零 ， 而 正 类 样 例 的 准确 率 为 100% 。 但 是 由 于 各 种 各 样 的 原因 ， 
这 种 情况 鲜 有 发 生 。 


正 类 样 例 的 准确 率 




















0 负 类 样 例 的 错误 率 1 


图 11.2 两 种 分 类 器 ROC 曲线 的 例子 ，c, 和 c,。 分 类 器 参数 可 
用 于 修改 假 正 类 和 假 负 类 样 例 的 数量 





一 个 重要 的 问题 是 ，c, 和 c, 哪 条 曲线 更 好 。 答 案 只 能 基于 实际 应 用 中 的 特定 
需求 来 回答 。 根 据 图 像 我 们 可 以 得 出 以 下 结论 : 就 正 类 而 言 ， 在 负 类 错误 率 低 的 
KIR, c 的 表现 优 于 c,。 随 着 负 类 样 例 错误 率 的 增加 ，c, 在 正 类 样 例 上 的 表现 优 
于 cj。 再 者 ， 分 类 天 表现 的 好 坏 取决 于 用 户 的 标准 。 


LA 
if 





尔 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 


。 对 什么 类 型 的 数据 我 们 会 选择 使 用 精度 和 查 全 率 来 评估 一 个 分 类 内 的 性 和 外 


(而 





on 


不 是 用 错误 率 )? 


。 计算 这 些 标 准 的 数值 要 使 用 什么 公式 ? 两 个 公式 间 有 什么 不 同 ? 


e 在 人 





| 么 情况 下 我 们 更 喜欢 高 精度 ， 而 在 什么 情况 下 我 们 更 喜欢 高 查 


全 率 ? 
。 请 解释 ROC 曲线 的 本 质 。 通 过 曲线 我 们 还 能 知道 有 关 分 类 器 表现 的 哪些 
信息 ? ROC 曲线 如 何 帮 助 用 户 对 两 个 分 类 器 做 出 选择 ? 
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11.3 测量 性 能 的 其 他 方法 


除了 错误 率 ， 分 类 准确 率 、 精 度 和 查 全 率 ， 还 有 其 他 标准 可 用 于 测量 性 能 ， 
每 一 种 标准 反映 分 类 带 性 能 的 不 同方 面 。 下 面 我 们 简单 介绍 一 下 其 中 最 重要 的 几 
个 方面 。 

精度 和 查 全 率 的 综合 Fe 。 使 用 两 个 不 同 的 〈 有 时 是 相反 的 ) 性 能 标准 可 能 是 
不 合适 的 ， 人 们 的 初衷 是 想 用 一 个 数字 来 量化 事物 ， 特 别 是 对 于 精度 和 查 全 率 。 
工程 师 尝试 把 两 个 准则 结合 为 一 个 量 。 最 著名 的 是 公式 Fa, EUTF : 









































“+1) xPrxR 
pes tL) R A (11.5) 
B xPr + Re 


式 子 中 的 参数 Be [0，w ) ， 用 于 衡量 两 个 标准 的 相对 重要 性 。 如 果 B >1, AB 
么 查 全 率 将 获得 更 多 的 权重 。 如 果 B <1， 那 么 精度 将 获得 更 多 的 权重 。 显 而 易 
RL, 4Boolt, Fy 能 收敛 于 查 全 率 ; 4 B=OM, Fy 收敛 于 精度 。 

在 多 数 情况 下 ， 工 程 师 并 不 知道 精度 和 查 全 率 哪 个 更 重要 或 究竟 有 多 重要 。 
如 果 出 现 这 种 情况 ， 就 会 偏向 于 采用 中 立 的 参数 值 8 = 1 


F _2 x Pr x Re 
! Pr + Re 


一 个 数值 例子 。 假 定 在 一 个 测试 集 上 对 分 类 器 进行 评估 的 结果 如 表 11.2 上 部 
分 所 示 ， 即 精度 和 查 全 率 的 值 分 别 为 Pr =0. 40 和 Re =0. 29。 利 用 这 些 数值 ， 我 们 
将 会 在 参数 6=0.2、B =1 和 B=5 的 具体 设置 下 计算 F, 的 值 。 

_ (0.2? +1) x0.4x0.29 0.121 


























(11.6) 

















F,,- = =0. 39 
ue 0.2? x0.4 +0. 29 0. 306 
_ (1 +1) x0.4 x0.29 _ 0.232 _ 
i 0.4 +0. 29 zga A 
r. 2(5 +1) x0.4x0.29_ 3.02 _ 6 49 





3 5° x0.4+0.29 10.29 








敏感 性 与 特异 性 。 在 选择 具体 准则 的 时 候 经 常会 受到 特定 应 用 领域 的 影 
因为 不 同 领域 有 着 不 可 和 忽略 的 特定 需求 和 根深 带 固 的 传统 。 因 此 ， 医 学 界 
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E A J IC URE AA PEE OMAP BREE (不 一 定 是 由 机 器 学 习 开 
发 得 到 的 ) 。 其 实 ， 这 些 量 只 不 过 是 分 别 在 正 类 样 全 和 负 类 样 例 上 测定 的 查 全 率 。 
让 我 们 具体 看 一 下 : 

敏感 性 即 在 正 类 样 例 上 测定 的 查 全 率 : 


























7 Nip 
Sa ee (11.7) 
特异 性 即 在 负 类 样 例 上 测定 的 查 全 率 ; 
= Now 
Se=N— NS (11.8) 

















在 机 器 学 习 的 文献 中 ， 关 于 人 敏感 性 和 特异 性 的 介绍 十 分 罕见 ， 但 是 读者 依然 
需要 了 解 这 两 个 标准 。 毕 竞 ， 在 将 机 需 学 习 应 用 于 医疗 数据 时 我 们 可 能 会 被 要 求 
使 用 这 两 个 标准 ， 并 且 顾 客 往往 就 是 那个 最 终 发 号 施 令 的 人 。 

几何 平均 值 。 当 从 一 个 不 平衡 类 代表 的 域 中 归纳 一 个 分 类 器 时 ， 工 程 师 有 时 
想 要 在 正 类 和 负 类 上 都 能 有 相似 的 性 能 。 在 这 种 情况 下 ， 就 会 使 用 到 两 个 分 类 准 
HR 〈 正 类 样 例 的 和 负 类 样 例 的 ) 的 几何 平均 值 ， 即 gmean: 


























Now 


= Voor x oom = |< —™ 11.9 
gmean = CC pos X ACC neg = Na tN x Na +N, (11.9) 


这 里 需要 注意 的 是 ， 几 何平 均值 实际 上 是 正 类 样 例 查 全 率 和 负 类 样 例 查 全 率 
的 乘积 ， 或 者 换 句 话 说， 就 是 敏感 性 和 特异 性 的 乘积 。 

几何 平均 值 中 最 重要 的 方面 大 概 就 是 : 它 不 仅仅 依赖 于 根 号 下 Ace ,和 ACC neg 
的 值 ， 还 依赖 于 两 个 数值 之 间 有 多 接近 。 这 一 点 通过 一 个 简单 的 数值 例子 就 可 以 
证 明 。 

例如 ，0.75 和 0.75 的 算术 平均 值 是 (0.75 +0.75)/2 =0.75; 同时 ，0.55 和 
0.95 的 算术 平均 值 是 (0.55 +0.95)/2 = 0.75。 但 是 ， 前 者 的 几何 平均 值 是 
V0.75 x0.75 =0.75， 而 后 者 的 几何 平均 值 是 v0.55 x0.95 =0.72, 稍 小 于 前 者 。 
由 此 可 得 ， 当 两 个 数值 不 同时 ， 几 何平 均值 比较 小 ; 并 且 数 值 彼此 间 的 差异 越 大 ， 
几何 平均 值 的 数值 越 小 。 

另 一 个 数值 例子 。 再 者 ， 假 定 分 类 器 在 测试 集 上 的 评估 结果 如 表 11.2 上 半 部 
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分 所 示 。 敏 感性 、 特 异性 以 及 几何 平均 值 的 计算 方法 如 下 : 


900 


Se = 900 +30 


=0.97 











mies aa x snag = 0.29 x0. 97 =0. 53 


成 本 函数 。 在 机 器 学 习 的 应 用 中 ， 并 不 是 所 有 的 错误 都 受到 相同 的 惩罚 。 假 
正 类 的 惩罚 可 能 比 假 负 类 更 重 一 些 , 或 者 相反 。 在 菏 些 域 中 ， 两 个 分 类 器 的 比较 
会 因为 实际 情况 变 得 更 加 复杂 ， 因 为 这 两 类 错误 的 成 本 不 能 用 同一 个 (至少 是 可 
比 的 ) 单元 表示 。 

回想 一 下 我 们 在 第 8 章 中 讨论 过 的 溢 油 识别 问题 。 一 个 假 正 类 的 样 例 在 这 里 
意味 着 ， 一 个 “看 起 来 像 油 溢出 ”的 样 例 被 错误 地 当 作 是 油 溢出 〈 一 个 假 正 类 ) 。 
当 这 样 的 情况 发 生 时 ， 派 遗 一 架 飞 机 到 指定 地 点 核实 这 一 事件 则 是 多 余 的 。 这 次 
错误 所 引起 的 费用 与 这 次 飞行 相关 。 与 之 相反 ， 假 负 类 意味 着 潜在 的 环境 危险 并 
没有 被 侦查 出 来 ， 这 时 的 代价 就 很 难 用 金钱 衡量 了 。 








cf F 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 请 解释 F, 是 如 何 将 精度 和 查 全 率 联系 起 来 的 。 请 写 出 公式 并 讨论 不 同 的 B 
值 给 予 精 度 或 查 全 率 更 高 权重 的 差异 。 R 
权重 ? 

e 写 出 敏感 性 和 特异 性 的 计算 公式 。 解 释 它 们 的 本 质 并 给 出 它们 与 查 全 率 的 
关系 。 什 么 时 候 会 用 到 这 两 个 准则 ? 

e 写 出 几何 平均 值 的 计算 公式 。 解 释 它 的 本 质 并 给 出 它 与 查 全 率 的 关系 。 什 

么 时 候 会 用 到 这 一 准则 ? 
在 什么 情况 下 假 正 类 的 成 本 和 假 负 类 的 成 本 有 差异 ? 列举 一 个 无 法 将 它们 
做 比较 的 情况 。 















































11.4 多 标签 域内 的 性 能 





我 们 已 经 知道 ， 在 一 些 问题 域 中 ， 每 个 样 例 能 同时 属于 两 个 或 多 个 分 类 。 一 
个 很 好 的 例子 是 文本 分 类 ， 其 中 的 每 个 文件 都 可 以 被 贴 上 两 个 或 多 个 类 标签 。 工 
程 师 需 要 知道 如 何在 这 些 环境 中 测量 归纳 出 分 类 器 的 性 能 。 

宏 平 均 。 一 般 而 言 ， 经 常 采用 的 方法 是 性 能 准则 的 平均 值 。 然 而 ， 有 两 种 不 
同 的 方法 求 平均 值 。 在 宏 (macro) 平均 中 ， 首 先 计算 每 个 分 类 的 性 能 ， 然 后 求 这 
些 结果 的 平均 值 。 在 这 种 方法 中 ， 每 个 分 类 获得 相同 的 权重 。 下 面 是 精度 、 查 全 
RA F, 的 公式 : 



































> re; (11. 10) 


Medd, 
微 平均 。 另 一 个 不 同 的 方法 由 微 平均 提出 。 在 这 里 ， 每 个 分 类 根据 其 在 样 例 
中 出 现 的 频率 得 到 相应 的 权重 。 在 这 个 方法 中 ， 性 能 是 对 所 有 例子 的 平均 ， 就 好 
像 它们 全 属于 一 个 类 。 下 面 是 精度 、 查 全 率 和 F, WAR: 























L 
2 TP, 
P = - i=l 
> TP, + FP, 
i=l 
L 
> TP, 
Ret = 一 一 一 (11.11) 
> TP, + FN, 
j=l 
2 x pr” x re” 
mei As 


pr’ + re” 


243 


244 


| 机 器 学 习 导论 


FMF ENT TA? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 列举 一 个 多 标签 域 的 例子 。 

e 给 出 精度 、 查 全 率 和 FL 的 宏 平均 公式 。 

。 给 出 精度 、 查 全 率 和 FL 的 微 平均 公式 。 











11.5 学习 曲 线 和 计算 开销 


本 章 的 前 4 个 小 节 解 决 了 由 归纳 得 到 的 分 类 器 的 性 能 评价 问题 。 本 小 节 我 们 
将 把 注意 力 转 向 对 学 习 算 法 本 身 的 评价 。 给 定 的 归纳 技术 在 计算 上 的 有 效 性 如 何 ? 
归纳 出 的 分 类 器 有 多 好 ? 如 果 我 们 选择 其 他 的 机 器 学 习 框 架 ， 能 和 否 得 到 更 优 的 
结果 ? 

在 这 一 小 节 ， 我 们 将 研究 机 器 学 习 的 成 本 ， 成 功 归 纳 所 需 样 例 的 数量 和 需要 
花费 的 计算 时 间 。 另 一 方面 ， 下 一 节 将 介绍 具有 较 高 分 类 性 能 工具 的 能 

学 习 曲 线 。 当 评估 一 个 人 学 习 如 何 解决 某 个 具体 问题 的 能 力 时 ， 心 理学 家 会 
依靠 学 习 曲 线 (learning curve) 来 完成 ， 机 器 学 习 也 借用 了 这 个 概念 来 达成 目标 。 

从 我 们 的 角度 来 看 ， 学 习 曲 线 仅仅 表明 了 训练 集 的 大 小 如 何 影 响 归 纳 分 类 器 
的 分 类 性 能 。 图 11. 3 展示 了 两 条 这 样 的 曲线 ， 横 轴 代 表 训 练 样 例 的 数量 ; 纵 轴 代 
表 这 些 样 例 所 归纳 出 的 分 类 器 的 分 类 准确 率 。 通 常 ， 我 们 评估 的 是 独立 测试 样 例 
的 分 类 准确 率 ， 但 也 并 不 总 是 如 此 。 

在 大 多 数 情况 下 ， 训 练 集 越 大 意味 着 更 高 的 分 类 性 能 一 一 至 少 可 以 改进 到 不 
能 继续 优化 为 止 。 然 而 在 理想 情况 下 ， 我 们 更 想 从 最 小 的 合理 训练 集中 得 到 最 大 
的 性 能 。 这 是 因为 ,一 方面 ， 获 得 训练 样 例 的 成 本 可 能 十 分 高 郧 ， 有 时 可 能 无 论 
付出 多 大 的 代价 都 得 不 到 。 另 一 方面 ， 我 们 使 用 的 样 例 越 多 ， 归 纳 所 需 的 计算 开 
销 就 越 大 。 

比较 具有 不 同学 习 曲 线 的 学 习 器 。 图 11. 3 所 示 是 两 个 学 习 器 的 学 习 曲 线 ,， L 




































































和 六。 读者 可 以 看 出 前 一 条 曲线 上 上 升 迅速 ， 在 快速 达到 某 一 数值 后 基本 不 再 上 
升 ， 达 到 平衡 一 一 这 个 限制 可 能 因为 一 个 错误 的 偏见 被 强化 ( 见 10.1 节 )。 比 较 
而 言 ， 第 二 个 学 习 串 的 学 习 曲 线 2 增长 较 组 ,但 最 后 达到 了 比 14, 更 高 的 准确 率 。 
哪 条 学 习 曲 线 代 表 了 更 胜 一 筹 的 学 习 融 取决 于 所 给 定 应 用 的 实际 情况 。 当 训练 样 
例 的 资源 有 限时 ， 显 然 第 一 个 学 习 顺 更 适合 。 如 果 样 例 充 足 ， 我 们 更 青睐 于 另 一 
个 学 习 絮 ， 当 然 在 这 种 情况 下 ， 计 算 开 销 是 很 大 的 。 











分 类 准确 率 

TOLO inet ete ee SS RAR 
a 
A a 








训练 样 例 


图 11.3 ”学习 曲线 展示 了 分 类 准确 率 如 何 依赖 于 学 习 过 程 中 可 
用 样 例 的 数量 

计算 开销 。 计 算 开 销 包 括 两 个 方面 。 第 一 ， 从 可 用 数据 中 归纳 出 分 类 需 所 需 
要 的 时 间 。 第 二 ， 归 纳 出 分 类 器 对 一 系列 样 例 进 行 分 类 所 需要 的 时 间 。 按 照 这 些 
原则 ， 本 书 所 介绍 的 技术 涵盖 范围 很 广 。 关 于 归纳 成 本 ,最 低廉 的 是 -NN 分 类 
器 的 基本 版 本 : 唯一 包含 的 “计算 ”是 用 来 储存 训练 样 例 的 >。 但 是 另 一 方面 , k 
- NN 分 类 器 的 分 类 成 本 高 昂 。 

例如 ， 如 果 我 们 有 一 百 万 个 训练 样 例 ， 每 个 样 例 都 有 一 万 种 属性 描述 。 我 们 
不 得 不 进行 数 十 亿 次 的 算数 运算 来 分 类 单个 样 例 。 当 要 求 分 类 上 百 万 个 样 例 时 ， 
即使 是 一 个 非常 快 的 计算 机 也 要 花费 很 长 一 段 时 间 。 

在 决策 树 中 的 情况 有 些 不 同 。 分 类 样 例 的 成 本 低廉 ， 通 常 只 需要 适量 的 单 属 
性 检验 。 然 而 ， 如 果 可 用 的 训练 样 例 被 多 种 属性 所 描述 ,那么 决策 树 归 纳 依然 需 







































































O 如 果 要 去 除 噪 声 样 例 和 多 余 样 例 ， 则 一 定量 的 计算 十 分 重要 。 
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要 花费 很 多 时 间 。 

每 个 分 类 器 的 归纳 成 本 和 分 类 成 本 各 不 相同 ， 工 程 师 在 为 给 定 的 应 用 选择 最 
合适 的 机 器 学 习 范 例 时 ， 会 很 深思 熟 虑 地 考虑 这 些 成 本 。 同 样 重要 的 是 ， 工 程 师 
也 需要 透彻 理解 这 些 成 本 是 如 何 被 训练 样 合 的 数目 和 描述 样 例 的 属性 数量 所 影响 
的 ， 有 时 成 本 还 会 依赖 于 用 户 要 求 的 准确 率 〈 如 神经 网 络 ) 。 












































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
给 定 的 机 器 学 习 范 例 主 要 有 哪 两 方面 的 成 本 ? 
学 习 曲 线 告 诉 了 我 们 机 器 学 习 算 法 的 哪些 行为 ? 在 理想 情况 下 ， 我 们 想 要 
得 到 什么 形状 的 学 习 曲 线 ? 实际 上 我 们 又 该 期 待 什么 形状 呢 ? 
在 什么 环境 中 ， 一 个 具有 和 较 低 最 大 值 的 陡峭 学 习 曲 线 会 优 于 一 个 具有 和 较 高 
最 大 值 的 平缓 曲线 ? 




















11.6 实验 评估 的 方法 


我 们 都 知道 不 同 的 问题 域 受 益 于 不 同 的 归纳 技术 。 通 常情 况 下 ， 选 择 分 类 器 
并 不 困难 ， 并 且 一 些 可 用 的 训练 数据 的 知识 ， 常 常 可 以 帮助 我 们 选择 最 合适 的 范 
例 。 例 如 ， 阁 无 关 属性 的 比例 很 高 ， 那 么 决策 树 可 能 比 最 近邻 分 类 器 的 效果 更 好 。 
然而 ， 一 个 给 定 技术 的 成 功 也 取决 于 各 种 参数 的 值 。 尽 管 某 些 已 经 经 过 时 间 考 验 
的 经 验 法 则 能 有 所 帮助 ， 但 最 好 的 参数 设置 通常 是 通过 实验 发 现 的 。 

基准 方法 及 其 局 限 性 。 基 本 情况 十 分 简单 。 将 预 分 类 的 样 例 集 合 划分 为 两 个 
子 集 ， 一 个 用 于 训练 ， 另 一 个 用 于 测试 。 使 用 不 同 的 参数 设置 ， 不 断 重 复 训 练 - 
测试 过 程 ， 把 其 中 性 能 最 高 的 那 一 个 选 出 来 。 然 而 ， 这 只 有 在 可 用 的 预 分 类 样 例 
非常 多 的 情况 下 才能 实现 。 在 缺乏 样 例 的 问题 域 中 ， 或 当 获 取样 例 的 成 本 高 晶 时 ， 
随机 地 将 样 例 划分 为 一 对 训练 集 和 测试 集 将 缺乏 客观 性 。 偶 然 情况 下 ， 两 个 子 集 
中 的 任何 一 个 都 可 能 足以 焉 曲 给 定 的 问题 域 。 统 计 学 家 告诉 我 们 ， 训 练 集 和 测试 















































集 都 应 该 或 多 或 少 具有 分 布 相同 的 样 例 。 但 是 在 小 数据 集中 ， 这 是 无 法 保证 的 。 

随机 子 采 样 。 当 预 分 类 样 例 集 很 小 时 ， 工 程 师 通常 乐意 多 次 重复 训练 - 测试 
过 程 。 在 每 次 运行 中 ， 样 例 集 被 随机 分 成 两 部 分 ， 一 部 分 用 于 训练 ， 另 一 部 分 用 
于 测试 。 每 次 运行 都 记录 分 类 器 表现 出 的 性 能 ， 并 且 求 其 平均 数 。 这 里 需要 注意 
的 是 ， 单 个 的 数据 分 割 彼 此 相互 独立 。 一 旦 过 程 重复 NIK (通常 N=10 或 N= 
5) ， 将 会 以 平均 分 类 准确 率 和 标准 差 的 形式 给 出 结果 ， 如 84. 2 +0.6。 关 于 平均 
值 和 标准 差 的 计算 ， 我 们 使 用 第 2 章 的 公式 : FIM, FAs (2.12) 计算 ; 标 
准 差 r ， 是 方差 o 的 平方 根 ， 用 式 (2.13) 计算 。 

N 折 交 义 验证 。 对 于 更 高 级 的 统计 评估 ， 经 验 丰 富 的 工程 师 常 常 青 睐 于 V 折 
交叉 验证 ， 原 理 如 图 11.4 所 示 。 首 先 ， 预 分 类 样 例 集 被 分 为 N 个 规模 相同 (或 近 
平等 分 ) 的 子 集 一 机 器 学 习 术 语 (并 不 完全 准确 ) ， 有 时 称 之 为 “ 折 ”。 




























































































5 折 交 叉 验证 
1. 
2. 测试 
3. 
4, 训练 
5. 
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原始 训练 集 
11.4 入 折 交 叉 验证 将 训练 集 划分 成 N 个 规模 相同 的 子 集 。N 次 实验 操作 的 任何 一 次 ， 
都 会 保留 一 个 不 同 的 子 集 进 行 测试 ， 在 剩余 的 N -1 个 子 集 的 集合 中 进行 训练 

Y 折 交叉 验证 进行 次 实验 。 每 次 试验 中 ， 都 会 移 除 V 个 子 集中 的 一 个 ， 其 
仅 用 于 测试 〈 这 保证 了 每 次 运行 中 都 会 使 用 一 个 不 同 的 测试 集 ) 。 然 后 在 剩余 的 
NN -1 个 子 集 的 集合 中 进行 训练 。 此 外 ， 结 果 要 取 平 均值 ， 并 且 计 算 标准 差 。 

比 起 随机 子 抽样 ，N 折 交 又 验证 的 优势 是 测试 集 是 分 离 的 (不 折 共 的 ) ， 这 在 
某 些 统计 评估 ( 见 第 12 章 ) 中 被 认为 是 一 大 优势 。 

分 层 法 。 假 设 你 要 应 对 的 是 一 个 包含 60 个 正 例 ，940 个 负 例 的 域 。 如 果 你 用 
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N=10 的 入 折 交 又 验 证 ， 每 一 折 可 能 包含 不 同 数量 的 正 例 。 如 果 按 照 平均 值 ， 则 
每 折 中 将 有 6 个 正 例 ， 但 在 实际 操作 中 具体 的 数目 可 能 不 同 。 在 一 个 域 中 ， 当 一 
个 类 的 样 例 相 当 少时 ， 有 些 “ 折 ”甚至 根本 不 包括 一 个 正 例 。 这 种 情况 在 有 严重 
不 平衡 类 存在 的 域 里 是 经 常 出 现 的 。 

在 这 种 情况 下 ， 经 验 丰富 的 工程 师 更 喜欢 分 层 (stratified) 法 ， 而 不 是 N 折 
交叉 验证 。 这 个 想法 是 为 了 确保 Y 折 的 每 一 折 都 包含 各 个 分 类 的 〈 大 致 ) 相同 样 
例 代表 。 例 如 ， 在 60 个 正 例 和 940 个 负 例 构成 的 域 中 ， 当 采用 5 折 交 叉 验 证 时 ， 
每 折 都 应 包含 200 个 样 例 ， 且 其 中 有 12 个 正 例 。 

相同 的 原则 经 常 在 随机 子 抽样 法 中 使 用 ,但 是 在 分 层 法 中 不 再 完全 随机 。 此 
外 ， 还 需要 确保 每 一 个 训练 集 和 测试 集中 均 包含 每 个 分 类 的 相同 代表 。 

5x2 交叉 验证 (5x2 cy) 。 另 一 个 机 器 学 习 技 术 的 实验 评 佑 方法 是 5 x2 交叉 
验证 ， 有 时 简写 为 5 x2cv。 这 可 能 是 最 受 欢迎 的 机 融 学 习 方法 。 该 方法 的 原理 是 
建立 在 随机 抽样 组 合 和 2 折 交 叉 验 证 上 的 。 

具体 来 说 ，5 x2 cv 将 预 分 类 样 例 集 分 成 规模 相同 的 两 部 分 ，T AT, BER 
来 , 用 T VBR, HT 测试 ， 然 后 互相 交换 再 进行 一 次 。 将 这 个 过 程 不 断 重 复 5 
次 ， 每 次 都 以 不 同 的 随机 方法 划分 出 两 个 子 集 。 最 终 ， 我 们 得 到 了 10 个 训练 - 测 
试 组 合 。 表 11. 3 中 的 伪 代 码 总 结 了 其 原理 。 

































































表 11.3 5x2 交叉 验证 算法 (5x2 CV) 





令 了 为 预 分 类 的 原始 集合 。 

. 将 了 随机 分 成 两 个 规模 相同 的 子 集 ， 按 同样 的 方法 划分 5 次 ， 最 后 我 们 得 到 5 对 子 
R, EN Ta Ta (=1，2，…，5)。 

. ROMP, ALT, VBR, AT WGN, EAE, FAT, Mik, FA WAR. 

. 因此 我 们 得 到 了 10 个 训练 -测试 组 合 ， 计 算 所 选 性 能 标准 的 平均 值 和 标准 差 。 
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许多 工程 师 更 喜欢 使 用 这 种 方法 的 分 层 版 本 ， 以 确保 实验 中 的 每 部 分 都 含有 
每 个 类 别 的 相同 代表 。 

没有 免费 的 午餐 定理 。 期 待 某 些 机 器 学 习 技 术 在 所 有 的 环境 中 都 被 优先 选择 
是 可 笑 的 。 不 会 有 这 样 的 事情 存在 。 读 者 现在 了 解 了 每 一 个 模型 都 有 自己 的 优点 ， 
使 得 能 够 成 功用 于 一 些 问 题 域 ， 但 也 都 也 有 一 些 缺 点 ， 使 得 在 其 他 问题 域 中 党 党 




































































失败 。 只 有 通过 系统 的 实验 ， 工 程 师 才能 知道 应 该 选择 哪 种 分 类 器 和 哪个 归纳 算 
法 来 完成 当下 的 任务 。 事 实 是 ， 没 有 任何 一 种 机 器 学 习 方法 在 任何 环境 中 都 优 于 
其 他 方法 。 

数学 家 已 经 用 严谨 的 论证 证 明了 这 种 观点 的 有 效 性 ， 并 将 结果 命名 为 〈 略 显 
奇特 ) “没有 免费 的 午餐 定理 ”。 








Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
N 折 交 又 验证 和 随机 子 抽样 的 区 别 是 什么 ? 为 什么 我 们 有 时 更 喜欢 使 用 这 
些 方 法 的 分 层 版 本 ? 
解释 5 x2 交叉 验证 (5 x2cv) 和 其 分 层 版 本 的 原理 。 
我 们 从 没有 免费 的 午餐 定理 中 学 到 了 什么 ? 











11.7 总 结 和 历史 简 评 

















衡量 分 类 性 能 的 基本 标准 是 错误 率 E， 其 定义 是 在 给 定 集 合 中 被 错误 分 类 
的 样 例 的 百分比 。 与 它 互 补 的 量 为 分 类 准确 率 ，4cc =1 - EB, 

当 任 何 一 个 分 类 的 证 据 都 不 够 有 力 时 ， 分 类 器 最 好 拒绝 该 样 例 以 避免 昂贵 
的 错误 分 类 成 本 。 此 时 ， 拒 绝 率 成 为 另 一 种 评估 分 类 性 能 的 重要 标准 。 拒 
绝 率 越 高 往往 意味 着 错误 率 越 低 ; 然而 ， 一 旦 超过 某 一 点 ， 分 类 器 的 效用 
就 会 降低 。 

评估 分 类 性 能 可 以 通过 对 真正 类 、 真 负 类 、 假 正 类 、 假 负 类 (表示 为 
NTP, NTN, NEP, NEN) 分 别 计数 来 定义 。 

在 存在 不 平衡 类 的 问题 域 中 ， 错 误 率 可 能 是 一 个 误导 性 的 标准 。 这 时 我 们 


























“e iti {ne = “ir — | 的 效果 更 佳 。 


rp + FP Nop + Nun 


有 时 ， 将 精度 和 查 全 率 结合 成 一 个 单 准则 ， 定 义 如 下 : 














使 用 精度 Pr = 5 
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(B +1) xPrxRe 
F; = ` 
B xPr + Re 


由 用 户 设 定 的 参数 B 的 数值 决定 了 精度 (B > 1) 和 查 全 率 (B<1) WH 
对 重要 性 。 当 认为 二 者 同样 重要 时 ， 我 们 令 8 =1， 即 : 


_2xPr x Re 
~  Pr+Re 


分 类 性 能 有 少量 共同 的 标准 ,包括 敏感 性 (sensitivity), 、 特 异性 
(specificity) 和 几何 平均 值 (gmean) 。 
e 当 一 个 样 例 可 能 同时 属于 多 个 分 类 的 域 时 ， 常 用 每 个 类 别 性 能 的 平均 值 来 
评估 分 类 器 的 性 能 。 有 两 种 求 平均 值 的 方法 : 微 平均 和 宏 平均 。 
机 融 学 习 技术 男 一 个 重要 的 方面 是 ， 达 到 某 一 分 类 性 能 需要 多 少 个 训练 样 
例 。 有 时 借助 学 习 曲 线 可 以 得 到 直观 的 答案 。 值 得 注意 的 是 ， 与 归纳 和 分 
类 有 关 的 计算 成 本 。 
在 预 分 类 样 例 数量 有 限 的 问题 域 中 ， 工 程 师 在 比较 可 选 的 机 器 学 习 技 术 
时 ， 应 当 使 用 随机 子 抽样 、N 折 交 叉 验 证 和 5 x2 交叉 验证 方法 。 这 些 技 
术 的 分 层 版 本 确保 了 每 个 训练 集 (和 测试 集 ) 中 每 个 分 类 的 样 例 比例 是 相 
同 的 。 

历史 简 评 。 本 章 所 讨论 的 大 部 分 性 能 标准 在 统计 学 文献 中 早已 出 现 并 使 用 了 
很 入 ， 很 难 追 根 溯源 。 一 个 例外 是 几何 平均 数 (gmean) ， 它 相对 较 新 ， 由 库 巴 特 
(Kubat) 、 霍 尔 泰 (Holte) MARR? (Matwin) 提出 。 

赫 尔 曼 ” (Hellman) 提出 : 如 果 在 一 个 问题 域 中 -NN 分 类 器 不 能 根据 大 
多 数 样 例 做 决定 ， 则 拒绝 分 类 。 对 此 路 易 祖 (Louizou) 和 梅 班 克 (Maybank) 进 
行 了 后 续 分 析 。 迪 特 里 奇 "5 (Dietterich) 提出 并 通过 实验 研究 了 5 x2 交叉 验证 
的 原理 。 沃 伯 特 5? (Wolpert) 提出 了 没有 免费 的 午餐 定理 。 











F, 
























































11.8 巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
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从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 























练习 
1. 假定 在 测试 集 上 对 分 类 器 评估 的 计数 结果 如 下 表 所 示 : 
分 类 器 返回 的 类 标签 
正 类 负 类 
真实 类 标签 : 正 类 50 50 
负 类 40 850 








计算 精度 、 查 全 率 、 敏 感性 、 特 异性 、 几 何平 均值 。 
2， 使 用 第 1 题 中 的 数据 计算 在 不 同 的 参数 值 (8=0.5、B=1 和 B=2) FF, 














的 值 。 
3. 假定 使 用 5 折 交 叉 验 证 评估 一 种 机 需 学 习 技 术 ， 在 测试 集中 测量 得 到 的 错 
误 率 结果 如 下 : 


E,, =0.14; E,, =0.16; E,,=0.10; E,,=0.15; E, =0. 18 

E, =0.17; E„ =0.15 ; Ey, =0.12; E,, =0.13; E, =0.20 
使 用 第 2 章 的 公式 ， 计 算 错 误 率 的 平均 值 和 标准 差 r (不 要 忘记 标准 差 是 
方差 o 的 平方 根 ) 。 





思考 题 


1. 列举 出 一 个 精度 比 查 全 率 更 重要 的 问题 域 ， 相反 地 ， 列 举 出 一 个 查 全 率 比 
精度 更 为 重要 的 问题 域 。 

2. 成 对 的 敏感 性 和 特异 性 反映 了 给 定 问 题 域 的 哪些 方面 ? 举例 说 明敏 感性 和 
特异 性 对 于 分 类 器 性 能 的 衡量 要 优 于 精度 和 查 全 率 的 情况 。 

3. 假定 在 某 个 问题 域 中 ， 你 要 归纳 出 两 个 分 类 器 : 一 个 是 精度 很 高 ， 另 一 个 

是 查 全 率 很 高 。 如 果 结 合 这 两 种 分 类 器 ， 我 们 能 获得 什么 利益 ?如何 实 现 
这 种 组 合 ? 在 什么 环境 中 这 种 结合 不 能 奏效 ? 

4. 与 W 折 交叉 验证 相 比 ， 思 考 一 下 随机 子 抽样 的 潜在 优 缺 点 。 
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上 机 实验 


1. 





(Bee — HED Lat J SASH RRR, FL RT CET “ME 





例 。 第 一 列 是 样 例 类 标签 ( 


“1” 或 “0” 分 别 代表 了 正 类 样 例 和 负 类 样 





例 ) ， 第 二 列 是 分 类 器 返回 的 类 标签 。 
1) 编写 一 个 程序 ， 计 算 精度 、 查 全 率 和 用 户 设 定 的 6 值 下 的 Fy 





2) 编写 一 个 程序 计算 其 他 怕 








能 标准 的 值 。 


.假定 有 一 个 和 矩阵 形式 的 训练 集 ， 其 中 每 一 行 代表 一 个 样 例 ， 每 一 列 代表 一 





个 属性 ， 最 右边 一 列 是 类 标签 。 编 写 一 个 程序 ， 按 照 5 x2 交叉 验证 技术 
的 要 求 ， 将 这 个 集合 随机 分 成 规模 相同 的 5 对 子 集 。 然 后 编写 一 个 程序 使 
用 分 层 方法 创建 子 集 ， 并 且 要 求 产 生 的 每 个 子 集 中 的 每 个 分 类 均 有 大 致 相 











同 的 样 例 。 








的 微 平均 和 宏 平均 组 成 。 








证 的 入 个 子 集 ， 并 且 保 证 这 
交 义 验证 而 非 一般 的 N 折 交 





.编写 一 个 程序 ， 该 程序 可 以 接受 两 种 输入: 中 多 标签 测试 样 例 的 一 系列 类 
标签 ; @ 多 标签 分 类 器 分 配给 这 些 样 例 的 标签 。 输 出 结果 由 精度 和 查 全 率 


.编写 一 个 程序 ， 实 现 以 下 功能 : 输入 一 个 训练 集 ， 输 出 可 用 于 w 折 交 又 验 








个 过 程 使 用 的 是 分 层 法 。 如 果 决 定 使 用 5 x2 
又 验证 ， 则 需要 如 何 修改 程序 ? 
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假设 你 要 在 一 个 独立 测试 集 上 评估 分 类 器 的 性 能 。 在 多 大 程度 上 可 以 信任 取 
得 的 结果 ? 当 抛 10 次 硬币 有 8 次 是 头像 时 ， 任 何人 都 会 认为 是 巧合 ， 觉 得 再 抛 10 
次 结果 会 更 接近 真实 情况 。 在 度量 分 类 央 性 能 时 的 情况 类 似 。 只 在 一 个 测试 集 上 
评估 分 类 器 的 精度 是 不 够 的 ， 需 要 应 用 概率 知识 使 得 测量 值 是 分 类 带 真 正 表 现 的 
可 靠 估 计 。 

数学 统计 可 完成 这 个 工作 。 为 使 学 生 熟 悉 必 备 的 技术 和 过 程 ， 本 章 介 绍 一 些 
基本 概念 ， 如 标准 误差 、 置 信 区 间 、 假 设 检验 ， 并 从 机 需 学 习 任 务 的 角度 加 以 解 


释 和 讨论 。 












































12.1 总 体 抽样 


如 果 我 们 在 多 个 不 同 的 测试 集 上 测试 分 类 器 ， 它 们 的 误差 率 会 不 一 样 ， 但 也 
不 是 完全 任意 的 : 测量 到 的 值 的 分 布 不 会 脱离 统计 规律 。 恰 当 理 解 这 些 规律 有 助 
于 我 们 估计 这 些 测 量 结果 的 代表 性 究竟 如 何 。 

一 次 观察 。 表 12. 1 包括 了 100 个 0 和 1， 它们 由 随机 数 发 生 器 生成 ， 随 机 数 
发 生 需 的 参数 设 为 输出 中 0 占 20% , 1 占 80% 。 当 然 实际 的 输出 结果 和 设 定 的 有 
轻微 差别 。 本 次 输出 中 ， 有 82 个 1，18 个 0。 











表 12.1 随机 数 发 生 器 生成 的 一 组 二 进 制 数 ， 结 果 中 的 1 占 80%; 
实际 有 82 个 1，18 个 0; 在 行 和 列 的 末端 是 对 应 的 汇总 


























0 0 1 0 1 1 1 0 1 1 6 
1 1 0 1 1 1 1 1 1 1 9 
1 1 1 0 1 1 1 1 1 1 9 
1 1 1 1 1 1 0 0 1 1 8 
1 1 1 0 1 0 1 0 1 1 7 
1 1 1 1 1 1 1 1 1 1 10 
1 1 1 1 1 1 1 1 0 1 

1 1 1 0 1 1 1 0 1 1 8 
1 1 1 0 1 0 1 1 1 1 8 
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表格 右 侧 和 底部 的 数字 告诉 我 们 每 行 和 每 列 各 有 多 少 个 1。 根 据 这 些 信 息 ， 
可 以 发 现在 前 两 行 中 1 所 占 的 比例 分 别 是 0.6 和 0.9， 因 为 每 行 有 10 个 数字 。 类 
似 地 ， 前 两 列 中 1 所 占 的 比例 为 0.9 和 0.8。 这 4 个 比例 的 平均 值 为 (0.6 +0.9 + 
0.9 +0.8) /4=0.80, 标准 差 是 0.08°。 

对 统计 学 家 来 说 ， 每 行 和 每 列 代 表 了 对 总 体 的 一 个 抽样 (sample) 。 所 有 样本 
有 相同 的 尺寸 : n=10。 现 在 假设 增加 这 个 值 ， 如 n=30。 那 么 比例 会 怎样 分 布 ? 

回 到 表 中 ， 前 3 行 共 包括 24 (6 +9 +9) 个 1， 接 下 来 3 行 包括 25 (8474+ 
10) 个 1， 前 3 列 包 括 26 (9+8+9) 个 1， 接 下 来 3 列 包括 23 (5+10+8) 个 1。 


ae P 24 25 26 23 
LEH 全 上] a H | y . — Se = = — =A 
把 这 些 数 除 以 n=30， 可 得 到 如 下 的 比例 30 70:80, 30=083, 39 =0.87, 30 


0.77。 计 算 这 4 个 值 的 平均 值 和 标准 差 可 得 0. 82 + 0. 02, 

比较 n=10 和 =30 的 结果 ， 有 两 点 值得 注意 。 第 一 ， 大 样本 的 均值 (0. 82 ) 
和 小 样本 的 均值 (0. 80) 有 微小 的 差异 。 第 二 ， 大 样本 的 标准 差 明 显要 小 : n =30 
时 为 0.02, n=10 时 为 0.08。 这 些 情 况 是 偶然 造成 的 ， 还 是 某 些 内 在 规律 产生 的 
结果 ? 

基于 随机 样本 的 估计 。 答 案 来 自 于 这 样 的 理论 ， 即 样本 尺寸 越 大 ， 估 计 的 
精度 就 越 高 。 更 进一步 ， 样 本 尺寸 越 大 ， 样 本 估计 的 方差 就 越 小 。 

另 一 个 所 谓 “ 中 心 极限 定理 ”的 理论 ， 说 明 单 个 估计 的 分 布 可 以 用 第 2 章 中 
学 过 的 高 斯 正 态 分 布 来 近似 ， 读 者 可 以 回忆 那个 像 钟 一 样 的 形状 。 不 过 ， 这 个 近 
似 只 有 在 比例 p 和 样本 尺寸 满足 下 面 两 个 条 件 时 才 是 相当 精确 的 : 

np 宇 10 (12.1) 





























n(1-p) >10 (12.2) 
如 果 条 件 不 满足 (如 果 至 少 1 个 乘积 小 于 10) ， 则 从 样本 中 得 到 的 估计 的 分 











〇 回忆 一 下 ， 标 准 差 是 方差 的 平方 根 ， 可 根据 第 2 章 式 (2.13) 计算 。 
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布 将 不 能 在 没有 精度 损失 的 情况 下 用 正 态 分 布 来 近似 。 

12.2 节 和 12. 3 节 将 详细 说 明 如 何 用 正 态 分 布 的 近似 来 帮助 我 们 建立 置信 和 度 ， 
以 测量 分 类 器 的 性 能 。 

一 个 例子 。 我们 看 一 看 ， 在 表 12. 1 中 所 示 的 样本 情况 下 ， 这 些 条 件 是 如 何 被 
满足 的 。 我 们 知道 ， 原 始 总 体 中 1 的 比例 是 由 用 户 设 定 的 随机 数 发 生 器 的 参数 决 
定 的 : p =0.8。 我 们 从 样本 尺寸 n=10 开始 。 结 果 显 示 两 个 条 件 都 不 满足 ， 因 为 
np =10-0.8= 8<10, JfH n(1-p) =10+0.2=2 < 10, 在 这 么 小 的 样本 中 观察 
到 的 比例 ， 其 分 布 不 能 用 正 态 分 布 来 近似 。 

第 二 次 尝试 中 ,样本 尺寸 增加 到 n=30。 得 到 np =30 .0.8=24 > 10， 这 时 
Ave (sk (12.1)) WET. Ail, AA n(1 -p) =30-0.2=6 < 10, 条 件 (xk 
(12.2)) 不 满足 。 于 是 ， 即 便 这 样 ， 正 态 分 布 仍 不 能 提供 足够 的 精度 近似 。 

当 样 本 尺寸 增加 到 n =60 时 情况 将 发 生变 化 。 计 算 可 得 np =60 . 0.8 =48 210, 
同样 na(1-p) =60 .0.2 =12==10。 于 是 我 们 可 以 认为 ， 当 样本 尺寸 n=60 时 , 1 
的 比例 的 分 布 可 以 用 正 态 分 布 去 近似 ， 不 会 有 明显 的 精度 损失 。 

p 的 影响 。 注意 正 态 分 布 的 适用 性 如 何 受 到 的 影响 ， 这 里 p 是 1 在 总 体 中 的 
分 布 。 容 易 发 现 对 于 不 同 的 p 值 ， 需 要 不 同 的 样本 尺寸 以 便 满足 两 个 条 件 。 当 p = 
0.5 时 ， 较 小 的 样本 就 够 了 ; 但 是 ， 比 例 值 向 p =0.5 的 两 侧 离 开 得 越 远 ， 所 需 的 
样本 尺寸 越 大 。 

为 了 更 好 地 理解 实际 中 的 含义 ， 回 忆 一 下 ， 当 p=0.8 时 ,样本 尺寸 n=60 就 
够 了 。 那 么 ， 如 果 样 本 尺寸 是 60, 但 是 比例 更 高 ， 如 p =0.95， 则 会 怎么 样 ? 这 
时 我 们 会 发 现 , n(1 -p) =60 .0.05 =3 < 10, 意味 着 条 件 ( 式 (12.2)) 不 满 
足 。 这 个 样本 中 比例 的 分 布 不 能 用 正 态 分 布 来 近似 。 这 时 为 了 满足 条 件 ， 要 求 样 
本 尺寸 至 少 为 n=200。 因 为 200. 0.05 =10， 刚 刚 达 到 。 另 外 要 注意 ， 因 为 条 件 
( 式 (12.1)) 和 (3È (12.2)) 是 对 称 的 ， 所 以 对 p=0.05 和 p=0.95 两 种 情况 ， 
所 需 的 最 小 样本 尺寸 是 一 样 的 ， 为 n =200。 

分 布 的 参数 。 再 回 到 曾经 讨论 过 的 问题 ， 根 据 样 本 来 估计 1 的 比例 。 我 们 
钢 在 知道 ， 如 果 样 本 足够 多 ， 则 在 不 同样 本 上 得 到 的 估计 的 分 布 可 以 用 正 态 
分 布 来 近似 ， 其 均值 等 于 整个 总 体 上 的 1 的 (理论 ) 比例 ， 如 果 可 以 完成 这 
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样 的 实验 。 

分 布 的 另 一 个 参数 是 标准 差 (standard deviation ) 。 在 我 们 的 语 境 中 ， 统 计 学 
家 更 喜欢 用 术语 : 标准 误差 (standard error) ， 这 两 个 术语 的 意思 有 微妙 的 差别 : 
标准 差 指 任意 变量 的 分 布 〈 如 体重、 年 龄 或 温度 ) ， 而 标准 误差 用 于 从 一 个 抽样 
到 男 一 个 抽样 所 得 到 的 估计 的 变化 。 这 也 是 我 们 讨论 比例 时 感 兴趣 的 地 方 。 
FAS, 表示 标准 误差 ,数学 家 已 经 给 出 了 根据 样本 尺寸 n， 理 论 比 例 p 来 计算 


EAR: 
S = JER (12.3) 


例如 ， 如 果 nn=50,p =0.8， 则 标准 误差 为 : 


ne /0. in 20 -0.06 


当 用 日 常 语言 来 表达 时 ， 人 们 会 说 标准 误差 是 6% 。 

n 的 影响 ; 收益 递减 。 注 意 ， 标 准 误差 的 值 和 样本 尺寸 的 变化 相反 。 具 体 来 
说 ,样本 尺寸 越 大 ， 标 准 误 差 就 越 小 ， 反 之 亦 然 。 因 此 当 n=50 H p =0.8 时 ， 
Ss = 0.06。 如 果 用 更 大 的 样本 ,如 n = 100， 则 标准 误差 将 会 降 到 5S = 






































ral =0.04。 正 态 分 布 曲线 于 是 变 得 更 窗 ， 不 同样 本 中 1 的 比例 将 更 加 趋 





i po 

这 就 是 说 ， 我 们 应 发 现 增加 样本 尺寸 会 引起 收益 递减 (diminishing return) 。 
让 我 们 用 一 个 简单 的 例子 来 说 明 这 句 话 。 前 一 段 的 计算 结果 告诉 我 们 ， 当 从 n = 
50 变 到 n=100 时 (RIME), 我 们 使 S, 减少 了 两 个 百分点 ， 即 从 6% 降 到 
4% 。 而 如 果 用 n = 1000 做 同样 的 计算 ， 可 得 Sp =0.013, 而 n= 2000 时 S, = 
0. 009。 换 名 话说 ， 把 样本 尺寸 从 1000 加 信和 到 2000， 只 能 让 标准 误差 从 1.3% 降 到 
0.9% ， 也 就 是 说 ， 加 倍 样本 只 能 产生 微不足道 的 0.4% 的 变化 。 

值得 记 住 最 后 这 个 例子 ， 因 为 它 很 有 用 。 在 很 多 问题 中 ， 预 分 类 的 例子 获得 
起 来 很 难 或 非常 昂贵 。 读 者 回忆 一 下 ，8.2 节 中 讨论 的 漏 油 问题 就 是 这 种 情况 。 
如 果 用 较 小 的 测试 集 就 可 以 得 到 可 以 接受 的 估计 ， 那 么 就 不 用 再 费力 去 找 其 他 的 
例子 了 ， 得 到 的 那 一 点 好 处 也 许 抵 不 上 额外 的 花 销 。 
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FMF ENT TA? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 如 果 从 大 量 随机 样本 中 得 到 的 比例 的 分 布 符合 正 态 分 布 ， 则 比例 应 满足 一 
定 条 件 ， 写 出 定义 这 些 条 件 的 公式 。 
。 解释 比例 p 如 何 影响 样本 尺寸 n， 使 得 在 不 同样 本 上 的 比例 满足 正 态 分 布 。 
。 基于 不 同样 本 的 一 组 估计 值 的 均值 是 什么 ?另外 ， 写 出 计算 标准 误差 
(standard error) 的 公式 。 


解释 这 旬 话 的 含义 :“ 增 加 样本 的 尺寸 导致 收益 阐 减 ”。 

















12.2 MERS Pikin 


上 一 节 研 究 了 来 自 某 总 体 的 样本 中 1 的 比例 。 样 本 尺寸 用 表示 ， 在 整个 总 
体 中 1 的 理论 比例 表示 为 p。 这 个 理论 值 未 知 ， 我 们 只 能 通过 对 样本 的 观察 来 估计 
它 。 另 外 我 们 知道 ， 尽 管 每 个 样本 的 比例 值 是 不 同 的 ， 但 这 些 值 的 分 布 通常 可 以 
用 正 态 分 布 来 近似 一 一 当 满 足 条 件 ( 式 (12.1)) 和 (È (12.2)) 时 这 个 近似 是 
相当 精确 的 。 

正 态 分 布 可 以 帮助 我 们 判断 在 一 个 训练 集 上 得 到 的 分 类 器 的 精度 〈 或 其 他 的 
性 能 指标 ) 有 和 多么 可 信 。 为 此 ,我 们 简单 了 解 一 下 如 何 计算 所 谓 的 置信 和 度 
(confidence values) 。 

分 类 器 性 能 的 重新 表示 。 在 包含 100 个 实例 的 测试 集 上 评估 分 类 器 的 性 能 
(100 是 表 12. 1 中 项 的 个 数 ) ， 假 设 1 和 0 代表 正确 和 不 正确 的 分 类 。 这 里 1 的 比 
例 给 出 了 分 类 器 的 精度 ，0 的 比例 定义 了 错误 率 。 

在 不 同 的 测试 集 上 评 佑 分 类 器 当然 会 得 到 不 同 的 分 类 精度 或 错误 率 。 但 当 测 
试 集 的 数量 很 大 时 ， 精 度 值 的 分 布 ， 如 我 们 所 见 ， 在 某 种 程度 上 大 致 服从 正 态 
分 布 。 

正 态 分 布 的 性 质 。 图 12. 1 显示 了 正 态 分 布 的 基本 形状 。 纵 轴 代 表 第 2 章 中 提 
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到 的 概率 密度 函数 ， 水 平 轴 表 示 分 类 精度 。 均 值 用 p 表示 ， 是 理论 分 类 精度 ， 用 
问题 域 中 所 有 的 实例 对 分 类 需 进 行 评 佑 时 可 得 到 ， 显 然 它 是 未 知 的 ， 这 也 是 为 什 
么 我 们 想 基 于 具体 的 样本 〈 即 可 用 的 测试 集 ) 对 它 进 行 估计 。 









































图 12.1 均值 为 p 的 高 斯 (IES) 分 布 


类 似 钟 形 的 密度 函数 说 明 在 大 多 数 测 试 集 上 得 到 的 分 类 精度 相当 接近 均值 p。 
离 p 越 远 的 值 ， 从 一 个 随机 测试 集中 得 到 它 的 概率 越 小 。 也 注意 到 沿 图 形 水 平 轴 
PR TEE p 的 几 个 特定 的 距离 : 分 布 的 标准 差 o 的 倍数 ， 或 是 基于 样本 的 估计 的 
标准 误差 的 倍数 。 

正 态 分 布 的 公式 在 2.5 HOTA, ERMA “BE” KA HRD 
个 公式 ， 可 以 知道 在 特定 区 间 [a, b] 内 的 值 的 百分比 。 曲 线 下 (MALA AE 
无 穷 ) 全 部 的 面积 是 1。 因 此 如 果 区 间 [a,b] 之 上 的 面积 是 0.8， 则 称 在 该 区 间 
里 包括 了 80% 的 估计 值 。 

标 出 感 兴趣 的 区 间 。 不 是 所 有 的 区 间 都 同等 重要 。 为 了 评估 分 类 器 ， 我 们 对 
围绕 均值 p 的 那些 区 间 感 兴趣 。 例 如 ， 人 们 希望 知道 在 [p-o, p+o] 内 的 值 占 
多 少 百分比 。 反 过 来 ， 人 们 也 许 想 知道 包括 了 95% 的 全 部 值 的 区 间 (还 是 围绕 p) 
有 多 大 。 

严格 来 说 ， 可 通过 数学 分 析 来 解答 这 类 问题 。 幸 运 的 是 ,不 需要 我 们 算 ， 其 
他 人 已 经 算 过 了 ， 用 他 们 的 结果 即 可 。 一 些 最 常用 的 结果 列 在 表 12. 2 中 。 其 中 左 
边 列 中 的 百分比 是 置信 水 平 (confidence level); 每 行 右边 给 出 了 组 成 这 些 百 分 比 
值 的 区 间 。 注 意 到 区 间 的 宽度 用 z* 来 标记 ， 即 两 边 到 p 的 标准 差 的 个 数 。 更 正式 


一 些 ， 可 定义 这 些 区 间 为 [p -z*o, p+z*o]。 
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#122 对 均值 为 p， 标 准 差 为 o 的 正 态 分 布 ， 
左 列 给 出 了 区 间 [p -z*o, p+z*o] 中 的 值 所 占 的 百分比 






































置信 水 平 (% ) 2" 
68 1. 00 
90 1. 65 
95 1. 96 
98 2. 33 
99 2. 58 





这 里 说 明 一 下 如 何在 实际 中 使 用 这 个 表 。 假 设 我 们 想 知道 包含 了 所 有 值 中 
95% 的 区 间 大 小 。 这 个 百分比 值 在 第 三 行 。 右 边 的 数字 是 1. 96 ， 意 思 是 有 95% 的 
值 落 在 区 间 [p-1.96-0, pt+1.96-0] 内 。 类 似 地 ，68% 的 值 在 区 间 [p-0, p 
+0] 内 ， 这 从 表 中 第 一 行 可 得 到 。 

基于 抽样 估计 的 标准 误差 。 我 们 看 一 下 评估 分 类 器 精度 时 怎样 使 用 这 些 知识 。 
假设 测试 集 都 有 相同 的 大 小 n, 并 且 这 个 n WERE ( 式 (12.1)) 和 ( 式 
(12.2) ) ， 于 是 可 以 用 正 态 分 布 。 已 知 在 独立 测试 集 上 得 到 的 分 类 器 的 精度 的 均 
值 履 盖 了 理论 精度 ， 也 就 是 说 ， 在 所 有 实例 上 测试 分 类 器 时 出 现 过 理论 精度 。 

标准 误差 9 可 用 式 (12.3) 计算 。 例 如 ， 如 果 理 论 分 类 器 的 精度 是 p = 0.70， 
测试 集 的 尺寸 a= 100， 那 么 从 大 量 不 同 测试 集中 得 到 的 分 类 器 精度 的 标准 误差 可 
计算 如 下 : 





















































Se= EP- DENNY 26 Ge (12.4) 
i 100 


四 售 五 人 后 ， 我 们 说 分 类 器 的 精度 为 70% + 上 5% 。 再 次 提醒 ， 如 果 用 大 的 测 
试 集 ， 则 标准 误差 会 降低 。 也 就 是 说 ， 测 试 集 越 大 ， 评 估 越 彻底 ， 因 此 得 到 的 置 
信和 度 就 越 高 。 

现在 我 们 问 ， 如 果 在 另外 同样 大 小 的 测试 集 上 评估 分 类 需 ， 会 得 到 什么 样 的 























O 如 12.1 节 所 述 ， 对 从 不 同 的 样本 中 获得 的 结果 的 分 布 ， 我 们 更 喜欢 用 术语 标准 误 
差 而 不 用 更 一 般 的 标准 差 。 
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值 呢 ? 再 一 次 我 们 用 表 12. 2 来 回答 这 个 问题 。 首 先 ， 找 到 代表 95% 的 行 ， 这 行 右 
边 的 列 给 出 值 z”=1.96， 意思 是 95% 的 结果 落 在 区 间 [p -1.96 + Sie, p+1.96 = 
Sie] = [0.80 -1.96.0.46, 0.80+1.96.0.46]=[0.61, 0.79] ZA, 

不 要 忘记 ,这些 只 有 在 测试 集 的 大 小 相同 ， 即 n=100 时 成 立 。 对 于 不 同 的 m， 
式 (12.4) 将 给 出 不 同 的 标准 误差 5,,,， 于 是 有 不 同 的 区 间 。 

两 个 重要 的 提醒 。 一 个 提醒 是 正 态 分 布 这 个 假定 究竟 有 什么 好 处 。 特 别 是 ， 
如 果 分 布 是 正 态 的 ， 则 从 表 12. 2 中 我 们 就 可 以 知道 包含 了 给 定 百分比 值 的 区 间 ， 
它 的 尺寸 是 多 大 (以 p 为 中 心 )。 

另 一 方面 ， 标 准 误差 公式 ( 式 (12.3)) 总 的 来 说 是 有 效 的 ， 即 使 分 布 不 是 
正 态 的 。 计 算 标准 误差 时 ， 两 个 条 件 ( 式 (12.1)) 和 ( 式 (12.2) ) 不 是 必须 满 
足 的 。 


























Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
e 怎样 将 前 一 章 中 的 内 容 用 于 评估 导出 分 类 器 的 性 能 ? 
e 从 表 12.2 中 我 们 能 够 得 到 什么 类 型 的 信息 ?从 大 小 为 n 的 测试 集中 得 到 分 
类 精度 ， 如 何 用 这 个 表 得 到 该 精度 的 置信 度 ? 
© 如 何 计算 一 个 给 定 测试 集 上 的 估计 的 标准 误差 ? 这 个 标准 误差 如 何 依赖 测 
试 集 的 尺寸 ? 





12.3 置信 区 间 


现在 我 们 看 一 看 ， 用 前 两 童 所 学 的 知识 ， 对 分 类 天 在 指定 测试 集中 表现 出 的 
性 能 ， 我 们 可 以 有 多 少 信心 。 

置信 区 间 : 例子 。 现 在 我 们 理解 ， 在 不 同 的 测试 集中 ， 分 类 精度 是 以 某 种 分 
布 存 在 的 。 现 在 想 知 道 的 是 ， 在 一 个 具体 的 测试 集 上 测 到 的 值 和 理论 值 之 间接 近 
程度 如 何 ， 对 这 个 结论 我 们 有 多 大 的 信心 。 
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假设 测试 集 的 尺寸 为 n= 100， 令 Ace =0. 85 为 在 这 个 测试 集 上 测 得 的 分 类 精 
度 ， 对 这 样 的 大 小 的 测试 集 ， 标 准 误差 为 : 


0.85 - 0. 15 
S = | o =0.036 (12.5) 


检查 正 态 分 布 条 件 我 们 发 现 ， 它 们 都 符合 ， 因 为 100 . 0. 85> 10 并 且 100 - 
0. 15 宇 10。 这 意味 着 我 们 可 以 用 表 12. 2 中 的 z" 值 。 从 表 中 我 们 可 以 很 容易 地 找到 
95% 的 值 在 [Acc -1.96 + Si, Acc -1.96 + Si] KEN, X} Ace =0.85 及 Sye = 
0.036， 我 们 发 现 对 应 的 区 间 是 [0. 85 -0.07, 0. 85 +0.07] =[0.78, 0.92], 

这 个 结果 是 说 ， 在 给 定 的 测试 集 上 ， 分 类 精度 的 真 值 落 在 [0.78, 0.92] 区 
间 中 的 某 处 的 可 信和 度 是 95% 。 

两 个 新 术语 : 置信 水 平和 误差 界限 。 置 信 区 间 反 映 了 特定 的 置信 水 平 。 它 们 定 
义 为 百分比 的 值 ， 列 在 表 12.2 左 侧 。 在 我 们 特定 的 例子 中 ， 置 信 水 平 是 95% 。 

每 个 置信 水 平定 义 了 不 同 的 置信 区 间 。 这 个 区 间 可 以 被 写 为 p+M， 其 中 bp 是 
均值 ，M 是 所 谓 的 误差 界限 。 例 如 ， 区 间 [0.78, 0.92] 的 均值 为 p =0. 85，, 误差 
界限 为 M= z* S =1.96 :0.036=0.07。 

选择 置信 水 平 。 在 上 面 的 例子 中 ， 置 信 水 平 95% 是 相当 常见 的 选择 。 对 于 其 
他 的 置信 水 平 ， 可 得 到 另外 的 置信 区 间 。 如 果 是 99% ， 表 12. 2 给 出 z”=2.8， 置 
信 区 间 为 [0.85-2.58 + S ,0.85 +2.58. S1] =[0.76 ,0.94]。 注 意 这 个 置信 
区 间 比 95% 的 要 长 。 可 以 预料 ， 分 类 精度 的 理论 值 落 在 一 个 长 的 区 间 中 的 概率 更 
高 。 反 过 来 ， 理 论 值 不 太 可 能 落 在 一 个 窗 的 区 间 中 。 对 置信 水 平 68% 也 是 这 样 
(标准 误差 近似 为 S$,, =0. 04)， 和 置信 区 间 是 [0. 85 -0.04, 0. 85 +0.04] =[0.81, 























































































































0.89], 
要 记 住 的 很 重要 的 一 点 是 ， 即 使 在 置信 水 平 为 99% 的 情况 下 ， 也 不 能 绝对 肯 
定 地 说 理论 值 一 定 会 落 在 相应 的 区 间 中 。 仍 有 1% 的 可 能 ， 测 到 的 值 落 在 区 间 的 
外 面 。 
另 一 个 参数 : 样本 尺寸 。 现 在 读者 理解 了 置信 区 间 的 长 度 依 赖 于 标准 误差 ， 
而 标准 误差 接 下 来 义 依赖 于 测试 集 的 尺寸 n (IL (12.3))。 本 质 上 ， 测试 集 越 
大 ， 文 持 测量 值 的 证 据 越 强 ， 于 是 置信 区 间 越 窄 。 这 就 是 为 什么 我 们 说 误差 界限 
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和 测试 集 的 尺寸 是 相反 的 关系 : 测试 集 尺 寸 增 大 ， 误 差 界限 减 小 。 

前 面 我 们 提 到 高 的 置信 水 平 导 致 更 长 的 置信 区 间 。 如 果 我 们 觉得 这 个 区 间 太 
大 ， 则 可 以 通过 使 用 大 的 测试 集 来 缩小 它 ， 也 就 是 更 大 的 n 值 ( 它 可 减少 测量 值 
的 标准 误差 ) 。 

如 果 我 们 想 限 定 误差 界限 到 某 个 最 大 值 ， 有 一 个 方法 可 以 决定 测试 集 应 该 多 
大 。 如 下 是 一 个 计算 误差 界限 的 公式 : 


M=z'S,, =z" jp (1 =p) (12.6) 
n 


解 出 公式 中 的 n GREM, p, 2° 的 值 ) 可 给 出 所 需 的 测试 集 尺 寸 。 

结束 语 。 用 最 简单 的 性 能 准则 及 分 类 精度 ， 解 释 了 对 给 定 置 信 水 平 确定 置信 
区 间 的 方法 。 不 过 这 个 方法 的 适用 范围 更 宽 : 代表 比例 的 任何 变量 的 不 确定 性 都 
可 被 量化 。 在 机 器 学 习 上 下 文中 ， 可 用 同样 的 方法 设计 第 11 章 中 的 性 能 标准 的 置 
AIOE, ADEE, Alleah FAs Bt 

但 必须 小 心 才能 做 得 对 。 一 定 不 要 忘 了 给 定量 的 值 的 分 布 只 在 条 件 ( 式 
(12.1)) 和 (st (12.2)) 被 满足 时 才能 用 正 态 分 布 来 近似 。 其 次 ， 当 用 式 (12. 3) 


Nop 、 
计算 精 
Nip +Nip 


度 : BA PEAS PBA PERS oD Et Borat E RATED) n= Nap + Nm 的 
样本 中 ， 我 们 处 理 的 是 真 阳性 样本 的 比例 值 。 对 召回 率 (recall) 和 其 他 性 能 标准 的 
处 理 也 类 似 。 






































计算 标准 误差 时 ， 要 确保 理解 n 的 含义 。 例 如 ,读者 还 记得 用 公式 
































P 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 解释 术语 置信 区 间 。 什 么 是 误差 界限 ? 

e 置信 区 间 (误差 界限 ) 的 大 小 如 何 依赖 用 户 指定 的 置信 水 平 ? 它 如 何 依赖 
测试 集 的 大 小 ? 
o 讨论 其 他 性 能 评价 标准 ， 如 精度 和 召回 率 的 置信 区 间 的 计算 。 
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12.4 一 个 分 类 器 的 统计 评价 


通过 实验 的 方法 ， 将 分 类 需 作 用 于 一 个 完成 预 分 类 的 样本 集 ， 能 够 确认 或 拒 
绝 关于 该 分 类 器 性 能 的 假设 。 对 依照 表 12.3 中 的 算法 对 结果 进行 统计 评估 。 下 
面 ， 通 过 一 个 简单 的 例子 给 出 详细 解释 。 














表 12.3 统计 评价 分 类 器 性 能 的 算法 














1. 给 定 一 个 样本 规模 为 n 的 测试 集 ， 一 个 分 类 准确 率 理 想 值 为 Ace 的 分 类 器 ， 检 验 正 
态 分 布 的 条 件 是 否 得 以 满足 : 
n+ Acc210, n+ (1 —Ace) 210 
2. 使 用 下 列 公式 计算 标准 误差 : 


42 /Ace ( ‘= Acc ) 


3. 假定 服从 正 态 分 布 ， 从 表 12. 2 PER BER A BAKEA" 值 。 计 算 相 应 的 置 
信 区 间 为 [Acc -z* + Sy, Ace Hz” + Sy. Jc 

4. 若 测试 集 上 的 测量 值 位 于 区 间 外 ， 则 拒绝 准确 率 为 Ace 的 原 假设 。 否 则 ， 认 为 拒绝 
原 假设 的 证 据 不 充分 。 




















一 个 简单 实例 。 假 定 一 位 机 顺 学 习 专 家 告诉 你 某 分 类 需 的 分 类 准确 率 为 Ace = 
0. 78。 俗 话说 得 好 ,“ 尽 管 信 任 ， 仍 要 验证 ”"， 因 此 你 决定 探究 一 下 专家 的 声明 是 
和 否 正确 。 为 了 完成 检验 ， 你 准备 了 一 个 包含 了 100 个 已 知 分 类 的 实例 集 ， 并且 将 
其 作为 衡量 分 类 器 性 能 的 测试 集 。 

最 终 ， 实 验 得 到 的 结果 是 分 类 器 的 分 类 准确 率 为 0.75， 小 于 给 出 的 0.78。 此 
时 ， 你 可 能 会 问 : 这 个 可 观察 到 的 差异 是 否 位 于 合理 范围 内 呢 ? 换 句 话说 ， 有 没 
有 可 能 专家 的 结论 是 正确 的 ， 只 不 过 由 于 测试 数据 具有 随机 性 才 得 到 了 较 低 的 性 
能 测量 值 ? 毕竟 ， 不 同 的 测试 集会 得 出 不 同 的 分 类 准确 率 。 

正 态 分 布 的 条 件 检验 。 这 里 需要 考虑 的 第 一 个 问题 是 ， 实 验 得 到 的 分 类 性 能 
的 分 布 是 否 近 似 于 正 态 分 布 。 如 果 答 案 是 肯定 的 ， 那 我 们 便 可 以 根据 表 12. 2 的 数 
值 进 行 统计 评价 。 

确认 条 件 (È (12.1)) 和 ( 式 (12.2)) 很 容易 。 鉴 于 np =100 . 0.75 =75 
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>10, E n(1 -p) =100 .0.25 =25 宇 10， 因 此 我 们 知道 条 件 得 到 满足 ， 可 以 采 
用 正 态 分 布 的 假设 。 

寻找 置信 水 平 为 95% 的 置信 区 间 。 假 定 如 果 分 类 器 对 任意 测试 集 分 类 时 得 至 
的 准确 率 是 0.75 的 概率 达到 95 % ， 你 就 准备 接受 专家 的 主张 (Acc =0.78)。 也 
就 是 说 ，0. 75 的 准确 率 要 落 在 以 0.78 为 中 心 的 与 95 % 的 置信 水 平 对 应 的 置信 区 
间 内 。 下 面 看 一 下 实际 情况 是 否 如 此 。 通 过 表 12. 2 可 知 ， 当 置信 水 平 为 95 % 时 ， 
z” =1.96。 这 就 意味 着 ， 由 随机 测试 集 得 到 的 准确 率 有 95 % 的 概率 位 于 区 间 
[Ace -1.96 * Si,, Ace +1.96 .Si,] P, HP, Acc =0.78 是 原 假设 ，5,. 则 是 在 规 
模 为 n 的 测试 集 上 的 统计 标准 误差 。 

在 具体 的 训练 集 里 ， 样 本 规模 n = 100。 标 准 差 的 计算 如 下 : 


_ /Acc (1 = Acc) - Pp? -0.25 _ 
Sies 3 = 100 70: 943 (12.7) 


n 











= 



























































我 们 推断 置信 区 间 为 [0.78 + 1.96 - 0.043, 0.78 +1.96 - 0.043], RA 
后 的 结果 是 [0.70, 0. 86]. 

一 个 关于 专家 声明 的 结论 。 对 此 处 训练 集 得 到 的 Ace =0.75 的 分 类 准确 率 进 
行 评估 ， 其 评 佑 值 恰好 处 于 95 % 的 置信 水 平 对 应 的 置信 区 间 内 。 

这 个 结论 令 人 欢欣 鼓舞 。 对 于 Ace = 0.78 的 原 假设 ,我 们 发 现在 随机 测试 集 
上 获得 的 分 类 准确 率 位 于 区 间 [0.70, 0.86] 内 的 概率 达到 95 % 。 这 确实 在 当前 
的 情境 中 发 生 了 。 因 此 ， 尽 管 我 们 的 实验 结果 是 Ace =0.75， 略 微 低 于 专家 所 说 ， 
但 是 不 得 不 承认 我 们 没有 令 人 信服 的 证 据 可 以 拒绝 该 声明 。 正 是 由 于 缺乏 此 类 证 
据 ， 因 此 我 们 认为 专家 的 声明 是 有 效 的 。 

类 型 工 统计 评估 错误 : 以 真 为 假 。 现 在 ， 你 已 经 理解 了 统计 评估 的 基本 原则 。 
某 些 人 还 对 性 能 做 了 陈述 。 基 于 测试 集 的 规模 (假定 服从 正 态 分 布 )， 我 们 计算 
包含 了 给 定 的 所 有 值 的 95 % 的 区间 规模 。 也 就 是 说 ， 在 原 假设 正确 的 前 提 下 ， 测 
试 结果 只 有 5 % 的 概率 落 到 区 间 之 外 。 这 就 是 我 们 为 什么 会 拒绝 测试 结果 位 于 这 
不 足 5 % 的 区 域内 的 任何 假设 。 因 为 我 们 简单 地 假定 这 在 现实 中 几乎 是 不 可 能 发 
生 的 。 

然而 ， 这 种 情况 依然 有 5 % 的 概率 会 出 现 。 我 们 必须 承认 把 分 类 器 作用 在 一 
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个 随机 测试 集 上 存在 一 定 的 风险 使 得 结果 处 于 给 定 的 置信 区 间 之 外 。 在 上 述 例子 
E, 拒绝 专家 的 声明 显然 是 不 公平 的 。 统 计 学 家 称 之 为 类 型 1 错误: 错误 地 拒绝 
了 正确 的 声明 ， 这 种 拒绝 往往 基于 某 些 结果 是 非典 型 的 事实 。 

如 果 我 们 想 要 避免 这 种 错误 ， 则 增加 要 求 的 置信 水 平 即 可 。 如 果 我 们 选择 
99 % 的 置信 水 平 而 不 是 95 % 的 置信 水 平 ， 则 假 警报 的 错误 将 减少 。 但 是 这 种 错 
误 率 的 降低 是 需要 付出 代价 的 ， 下 个 段落 会 给 出 解释 。 

类 型 开 统 计 评 估 错 误 : 以 假 为 真 。 与 上 面 截 然 相反 的 情况 也 是 可 能 出 现 的 ， 
即 原 假设 是 假 的 ， 然 而 由 测试 结果 得 到 的 分 类 准确 率 却 处 在 给 定 的 置信 区 间 内 。 
当 这 种 情形 发 生 时 ， 我 们 必须 得 出 结论 : 实验 无 法 提供 有 效 的 证 据 拒绝 原 假设 ， 
因此 不 得 不 接受 原 假设 。 

你 或 许 觉得 这 是 不 幸 的 ， 但 这 的 确 会 偶尔 发 生 。 一 个 不 正确 的 主张 没有 被 拒 
绝 ， 统 计 学 家 称 之 为 类 型 工 错 误 。 要 求 的 置信 水 平 高 时 容易 出 现 这 个 问题 ， 因 为 
相应 的 置信 区 间 范 围 很 大 以 至 于 测试 结果 基本 不 会 位 于 区 间 以 外 。 因 此 ， 实 验 结 
有 果 几 乎 不 会 拒绝 原 假设 。 

需要 注意 的 是 ， 要 均衡 两 类 错误 。 增 加 置信 水 平 可 以 减少 类 型 1 错误 , 但 是 
却 要 付出 增加 类 型 TL 错误 的 代价 ， 反 之 亦 然 。 































































































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 解释 如 何 统计 评价 某 分 类 器 在 一 个 测试 集 上 的 实验 测量 值 。 

e 术语 类 型 工 错 误 (BZR) 是 什么 意思 ? 我 们 怎样 才能 减少 该 类 错误 ? 


。 术语 类 型 开 错 误 (RH) 是 什么 意思 ? 我 们 怎样 才能 减少 该 类 错误 ? 














12.5 另外 一 种 统计 评价 

















现在 ,读者 会 理解 对 实验 数据 统计 处 理 的 本 质 ， 并 且 学 会 如 何 使 用 这 些 信息 
评价 分 类 器 的 性 能 ， 但 是 ， 借 助 统计 能 够 实现 的 远 不 止 这 些 。 
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两 个 测试 集 是 否 代 表 了 两 种 不 同 的 语 境 ? 第 10 章 里 提 到 了 这 样 一 种 情 
w: 有 时 不 同 的 语 境 下 也 许 会 学 习 归 纳 出 不 同 的 分 类 器 ， 就 像 英语 中 的 英 式 
发 音 和 美式 发 音 。 这 里 介绍 的 就 是 统计 是 如 何 帮助 我 们 在 数据 领域 里 辨别 此 
类 问题 的 。 

假定 我 们 在 两 个 不 同 的 测试 集 上 测试 两 个 分 类 器 。 第 一 次 测试 得 到 的 分 类 准 
确 率 为 疡 ， 第 二 次 测试 得 到 的 数值 为 p， (字母 代表 正确 结果 的 比例 ) 。 两 个 测试 
集 的 尺寸 分 别 用 n, Mn, 表示 。 最 后 ， 用 p 代 表 两 个 集合 中 被 正确 分 类 的 样本 比例 
的 平均 值 。 

统计 量 用 式 (12.8) 定义 : 


























we Pi ~P2 (12.8) 





将 计算 得 到 的 结果 与 表 12. 2 给 出 的 特定 置信 水 平 的 临界 值 进行 比较 。 
一 个 实例 。 假 定 在 规模 n, = 100 Mn, = 200 的 两 个 测试 集 上 评价 分 类 器 。 由 
此 得 到 的 两 个 分 类 准确 率 分 别 为 p, =0. 82, p =0.74， 因 此 两 个 测试 集 上 的 平均 分 
类 准确 率 为 =0.77。 容 易 证 明 已 经 满足 正 态 分 布 的 条 件 。 
将 数值 代入 式 (12.8) ， 得 到 : 
0. 82 —0.74 


z= 
1 1 


因为 这 个 值 低 于 表格 12. 2 给 出 的 95 % 的 置信 水 平 给 定 的 数值 ， 我 们 认为 结 
果 位 于 相应 的 置信 区 间 内 ， 所 以 这 两 个 结果 在 统计 上 是 不 可 区 分 的 。 


=1.6 (12.9) 











`) 


j 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 为 什么 我 们 要 关心 分 类 器 被 应 用 到 错误 数据 上 的 情况 ? 这 里 使 用 的 公式 是 
什么 ? 如 何 进行 评估 ? 
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12.6 机 器 学 习 技 术 的 比较 








有 时 ， 我 们 需要 知道 在 可 选 的 两 种 机 器 学 习 技 术 中 ， 哪 种 更 适合 给 定 的 分 类 
问题 。 这 里 提出 的 一 般 方法 与 前 面 几 节 内 容 有 些 不 同 ， 尽 管 它们 基于 相同 的 原理 。 
抛 开 宛 长 的 理论 ， 这 里 我 们 用 一 个 包含 具体 数据 的 简单 例子 介绍 该 评估 方法 。 

实验 方法 。 第 11 章 讨论 了 一 种 使 用 5 x2 交叉 验证 比较 两 种 机 器 学 习 算法 的 方 
法 。 读 者 可 以 回想 一 下 ， 该 方法 将 预 分 类 的 一 组 数据 划分 成 同样 大 小 的 两 个 子 集 
Ti 和 7T,。 首 先 ， 两 种 机 带 学 习 技术 基于 子 集 7 归纳 出 各 自 的 分 类 带 ， 然 后 将 这 
两 个 分 类 咒 在 7, 上 进行 测试 ; 接 下 来 ， 再 从 ?上 归纳 出 两 个 分 类 器 ， 在 Tu EÉ 
成 测试 。 将 上 述 过 程 重复 5 遍 ， 每 遍 都 将 数据 集 随 机 划分 成 两 个 子 集 ，7 和 7,。 

最 终 ， 我 们 得 到 了 10 对 测试 集 分 类 准确 率 (或 错误 率 、 精 度 、 召 回 率 ,或 者 
其 他 性 能 指标 ) 。 现 在 ， 我 们 可 以 确切 地 提出 一 个 问题 :“ 这 10 对 结果 的 差异 是 否 
是 统计 显著 的 ?” 

实验 结果 的 例子 : 成 对 比较 。 我 们 分 别 用 7, 和 7, 表示 第 i 对 子 集 。 假 定 要 比较 
的 两 种 机 器 学 习 算 法 为 MLI 和 ML2， 我 们 会 在 上 述 的 10 次 实验 操作 中 评价 它们 。 

假定 实验 结果 见 表 12.4。 在 该 表 中 ， 每 列 是 以 与 具体 实验 操作 次 序 对 应 的 测 
试 集 的 名 字 标 识 。 表 格 内 容 则 是 两 种 归纳 技术 归纳 得 出 的 分 类 器 作用 于 相应 测试 
集 得 到 的 分 类 准确 率 (以 百分比 的 形式 )。 最 后 一 行 给 出 了 两 个 分 类 准确 率 的 差 
异 。 需 要 注意 的 是 ， 这 里 的 差异 有 正 也 有 负 。 

对 这 些 结果 进行 计算 ,我 们 知道 差异 均值 4 =2. 0， 并 且 差 异 标准 差 s, =4. 63。 









































































































































表 12.4 ”两 种 机 器 学 习 技术 ML1 和 ML2 比较 的 实验 结果 。 
前 两 行 的 数值 为 分 类 准确 率 ( 以 百分比 的 形式 ) ， 最 后 一 行 给 出 的 是 差 值 d 











Ti T, T,, Ty Tz Ty Ti Ts Ts T; 

MII 78 82 99 85 80 95 87 57 69 73 

ML2 72 79 95 80 80 88 90 50 3 78 
d 6 3 4 5 0 7 3 7 4 5 
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配对 差异 的 统计 评价 原理 。 观 察 差异 值 4 (标准 差 为 ;,) 的 均值 ， 我 们 要 问 : 
此 处 的 差异 是 否 具有 统计 显著 性 ”换言之 ， 该 差异 是 否 在 先前 我 们 说 的 置信 区 间 
内 ， 如 置信 水 平 为 95 %? 注意 ， 置 信 区 间 的 中 点 为 4=0。 

与 前 面 讨论 的 方法 相 比 ， 我 们 必须 指出 两 点 主要 的 不 同 。 第 一 点 ,现在 我 们 
处 理 均值 4， 而 不 是 比例 。 第 二 点 ， 由 于 统计 评估 使 用 数值 的 数目 很 小 ， 并 且 
标准 差 的 估计 也 只 是 基于 给 定 的 10 个 观察 值 (总 体 未 知 ) ， 因 此 不 再 要 求 样本 服 
从 正 态 分 布 。 在 这 种 环境 中 ,我们 必须 采取 其 他 的 理论 分 布 ， 即 所 说 的 1 分 布 。 
它 的 形状 与 正 态 分布 (“ 钟 形 ”) 相似 ， 但 是 更 平滑 一 些 。 此 外 ， 它 的 “平滑 ”或 
“陡峭 ”程度 依赖 于 自由 度 的 数目 。 在 包含 10 个 测试 集 时 ， 有 10 -1 =9 个 自由 
度 。 表 12.5° 展 示 了 自由 度 为 9 时 一 些 典型 的 1 值 。 





























表 12.5 自由 度 为 9 时 的 概率 1 值 














置 信 水 F 

自由 度 
0. 10% 0.05% 0. 02% 0. 01% 
9 1. 83 2.26 2.81 3.35 














计算 成 对 测试 量 的 1 值 。 采 用 1 测试 的 统计 评价 在 本 质 上 与 服从 正 态 分 布 时 相 
同 。 对 于 存在 一 定 差异 的 均值 4 和 标准 差 ;,，t。( 下 标 是 自由 度 编号 的 计算 公式 
如 下 ， 其 中 为 测试 量 的 数目 。 














d -0 
fy = (12. 10) 
? s/n 


将 计算 得 出 的 和 表 12. 5 列 出 的 与 具体 置信 水 平 相关 的 临界 阔 值 进行 比较 。 
例如 ， 依 据 表 12. 4 的 结果 样本 ， 我 们 可 以 得 到 : 





ee ag (12. 11) 
4. 63/ /10 


因为 得 到 的 数值 低 于 2.26， 即 表 中 列 出 的 置信 水 平 为 95% 时 的 4 值 ， 我 们 得 











GO 随 着 自由 度 的 增加 ， 曲 线 会 越 来 越 接近 正 态 分 布 ， 当 自由 度 大 于 等 于 30 时 ， 形 状 
与 正 态 分 布 基本 相同 。 


269 


270 


机 器 学 习 导 论 


出 结论 : 


无 法 拒绝 (在 给 定 的 置信 水 平 上 ) 这 两 种 技术 产生 可 比较 的 分 类 准确 度 





的 假设 。 也 就 是 说 ， 我 们 接受 这 个 主张 。 


Fit 


Fa 
EL 小 


学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 


12. 7 








解释 能 够 得 到 10 对 结果 的 5x2 交叉 验证 技术 的 原理 。 
在 前 面 小 节 中 ,为 什么 我 们 不 能 采用 正 态 分 布 ? 这 里 使 用 了 什么 其 他 的 























写 出 计算 : 值 的 公式 。 解 释 如 何 计算 公式 中 每 个 变量 的 值 。 








总 结 和 历史 简 评 

















统计 评价 的 本 质 是 基于 对 相对 较 小 样本 的 观察 ， 得 出 总 体 所 具有 的 行为 的 
结论 。 
尽管 不 同 的 样本 得 出 不 同 的 结果 ， 但 是 这 些 结果 的 分 布 一 定 遵 循 某 些 统计 
规律 。 掌 握 这 些 统计 规律 能 够 帮助 机 器 学 习 工 程 师 计算 出 他 们 在 具体 测试 
集 上 得 到 的 分 类 准确 率 的 信任 程度 。 

最 典型 的 “抽样 结果 ”的 分 布 量 服从 高 斯 正 态 分 布 。 但 是 该 分 布 的 使 用 需 
要 满足 两 个 必要 条 件 。 给 定 训练 集 规模 n 和 平均 值 p IN, ARLE np S10 和 
n(1-p)=10, 

不 管 是 否 服从 正 态 分 布 ， 基 于 不 同 测试 集 得 到 的 精度 的 标准 误差 Ace 的 计 
算 公 式 如 下 : 


s -和 (1-4cc) /0.75 x0.25 
4 n ~ 100 


对 于 每 个 置信 水 平 ， 正 态 分 布 的 假设 都 给 出 了 一 个 特定 的 z* 值 ( 见 表 
12.2) 。 在 计算 出 标准 误差 并 选 定 了 一 个 置信 水 平 后 ， 我 们 可 以 按照 下 列 
公式 计算 置信 区 间 





























=0. 043 
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[Ace =z" Spe, Ace HZ" Spa] 

其 中 ，z” 5 被 称 为 误差 界限 。 不 同 的 度量 ,采用 相似 的 计算 公式 。 
假定 我 们 要 测试 关于 某 分 类 器 准确 率 Ace 的 声明 。 如 果实 验 估计 值 落 入 选 
定 置信 水 平 对 应 的 置信 区 间 内 ， 我 们 则 假定 没有 充足 的 证 据 可 以 拒绝 该 
Ace 声明 。 但 是 ， 若 结果 落 在 置信 区 间 外 ， 则 拒绝 这 个 声明 。 
我 们 经 常 借助 1 检验 的 结果 以 及 5 x2 交叉 验证 技术 来 比较 两 种 机 器 学 习 技 
术 。 其 中 ,i 检验 依赖 于 1 分 布 而 不 是 正 态 分 布 。; 分 布 在 不 同 的 自由 度 上 
形状 有 些许 不 同 。 

历史 简 评 。 本 章 介 绍 的 统计 方法 历史 悠久 、 体 系 完 备 ， 统 计 学 教科 书 往往 不 
再 关心 这 些 方法 的 发 明 者 是 谁 。 然 而 ， 站 在 机 器 学 习 的 角度 ， 我 们 必须 指出 ， 从 
5 x2 交叉 验证 得 到 实验 结果 并 进行 上 检验 的 做 法 是 迪 特 里 奇 … (Dieterich) 提 
出 的 。 













































































12.8 巩固 你 的 知识 

















下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 





练习 


1. 假定 我 们 要 评价 一 个 分 类 准确 率 p =0. 80 的 某 分 类 器 的 性 能 。 如 果 我 们 想 
要 依据 正 态 分 布 和 表 12. 2 的 信息 进行 评价 ， 那 么 需要 的 测试 集 规模 n 的 
数值 为 多 少 ? 

2， 假 定 存在 一 个 分 类 准确 率 = 0. 9 的 分 类 器 。 将 其 应 用 于 规模 n =400 的 
测试 集 时 ， 得 到 的 标准 误差 ss 是 多 少 ? 并 计算 置信 水 平 为 95 % 时 对 应 的 
置信 区 间 。 注 意 ， 不 要 忘记 验证 此 时 条 件 ( 式 (12.1)) 和 (È (12.2)) 
的 有 效 性 。 
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3. 假定 提供 了 一 个 声称 理论 准确 率 为 p = 0. 85 的 分 类 器 。 当 将 该 分 类 器 应 用 
于 包含 了 200 个 实例 的 测试 集 时 得 到 的 准确 率 为 0.81， 这 个 数值 显然 低 于 
希望 值 。 请 判断 ， 该 分 类 器 准确 率 p = 0. 85 的 声明 是 正确 的 概率 能 否 至 少 
为 95%? BB 99% WE? 


思考 题 


假定 开始 你 用 95% 的 置信 水 平 所 对 应 的 置信 区 间 来 测试 一 个 分 类 融 的 性 能 ， 
后 来 你 改变 了 想法 ,决定 改 用 置信 水 平 为 99% 对 应 的 置信 区 间 ， 则 该 做 法 是 
否 可 行 ? 这 种 增加 置信 区 间 的 做 法 需要 付出 的 代价 是 什么 ? 











上 机 实验 


假设 读者 已 经 实现 了 把 数据 分 成 5“ 折 ”的 程序 ， 以 使 用 5 x2crv 方法 进行 所 
需 的 性 能 验证 ， 并 且 已 经 实现 了 至 少 两 个 类 别 归 纳 的 程序 。 

编写 一 个 程序 对 两 种 采用 了 5 x2 交叉 验证 方法 的 分 类 器 归纳 技术 进行 比较 ， 
并 使 用 : 检验 评 佑 性能。 
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机 器 学 习 的 本 质 是 对 问题 最 优 解 进行 搜索 ， 即 找 出 一 个 在 训练 样本 和 新 样本 
上 都 尽 可 能 正确 的 分 类 器 。 第 1 章 解 释 了 一 种 最 流行 的 基于 人 工 智 能 搜索 技术 的 
方法 ， 即 爬山 算法 ， 并 说 明 如 何在 分 类 需 的 导出 中 应 用 。 


另外 一 种 搜索 方法 
进化 论 。 读 者 需要 了 解 这 种 
本 童 给 出 该 算法 的 基本 版 本 








遗传 算法 (Genetic Algorithm) ， 灵 感 来 自 于 达尔 文 的 


算法 ， 因 为 它 在 处 理 很 多 机 器 学 习 问 题 时 非常 有 用 。 
， 并 以 K-NN 分 类 需 问 题 来 说 明 它 的 用 法 。 





13.1 基本 遗传 算法 


首先 我 们 简要 介绍 遗传 算法 的 基本 原理 ， 具 体 实现 细节 下 一 节 讲 解 。 
基本 原理 。 本 节 中 分 类 器 被 编码 成 染色 体 的 形式 。 染 色 体 有 时 也 称 作 “ 基 
因 ”， 常 用 二 进 制 字 符 串 的 形式 表示 。 遗 传 算法 在 染色 体 的 种 群 上 进行 操作 ， 每 条 


染色 体 描述 一 个 个 体 (分 








类 器 ) 。 每 个 这 样 的 个 体 有 一 个 适应 函数 (fitness 


function) 值 ， 这 个 值 根据 分 类 需 的 性 能 确定 ， 适 应 函数 的 角色 类 似 于 启发 式 搜 索 


中 的 进化 函数 = 。 


遗传 算法 循环 。 遗 传 算法 在 图 13. 1 所 示 的 无 限 循环 中 执行 。 任 意 时 刻 ， 种 群 


中 的 每 个 个 体 都 有 一 个 适应 了 


困 数 值 。 这 个 值 决 定 了 该 个 体 在 “幸运 轮 ” (wheel of 


fortune) 中 的 片断 长 度 ， 这 个 长 度 决定 存活 概率 。 理 解 这 个 过 程 的 概率 性 质 很 重 
要 。 尽 管 拥有 较 长 片断 的 个 体 享 有 更 高 的 存活 概率 ， 但 也 无 法 保证 ， 因 为 生存 游 
戏 存在 不 确定 性 。 在 现实 世界 中 也 是 一 样 的 ， 一 个 有 着 优秀 基因 的 个 体 可 能 在 一 
次 事故 中 消失 ， 而 较 差 的 基因 却 可 能 仅 因 为 运气 好 而 活 下 来 。 但 是 ， 如 果 时 间 很 
长 、 种 群 很 大 ， 概 率 规律 还 是 会 偏向 让 适应 性 高 的 那些 基因 存活 下 来 。 





存活 的 样本 接 下 来 选择 





























“配对 体 (mating partners) 。” 配 对 过 程 中 ， 染 色 


体 个 体 进行 重组 (recombined) ， 产 生 一 对 新 染色 体 。 这 些 新 染色 体 接 下 来 接 








O 本 章 使 用 的 术语 “进化 函数 ” “存活 函数 ”和 “适应 函数 ”可 互 换 。 
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受 变异 (mutation), ， 即 在 基因 串 (string) 中 加 入 噪声 (noise)。 整 个 原理 的 
伪 代 码 见 表 13. 1。 











存活 者 











图 13.1 遗传 算法 的 无 尽 循环 。 种 群 中 的 每 个 染色 体 都 有 自己 的 存活 几 
率 ， 与 配对 体 的 基因 重组 后 产生 新 的 染色 体 ， 并 可 能 产生 变异 


表 13.1 遗传 算法 原理 


初始 状态 : 染色 体 个 体 种 群 。 
1. 评估 每 个 个 体 的 适应 度 。 根 据 适应 度 值 ， 随 机 选择 存活 (survival) 的 个 体 。 
2. 存活 个 体 选择 配对 体 。 

3. 存活 个 体 和 配对 体 进行 染色 体重 组 (recombination) ， 产 生 新 个 体 。 

4. 用 随机 变异 (mutation) 来 改变 染色 体 。 

5. 算法 返回 第 1 步 ， 除 非 满足 终止 条 件 。 





























无 限 循 环 如 何 工作 。 一 旦 产生 出 新 种 群 ， 则 将 进入 一 个 新 的 循环 ,个 体 将 经 
过 同样 的 幸运 轮 ， 然 后 配对 、 重 组 、 变 异 、 一 直下 去 ， 直 到 满足 结束 标准 时 停止。 
需要 注意 偶然 出 现 的 错误 是 如 何 被 概率 特性 消除 的 。 低 质量 染色 体 可 能 侥幸 经 过 
SISK, 但 如 果 它 的 后 代 适 应 度 仍 很 低 ， 则 会 在 随后 的 世代 更 震中 被 淘汰 。 男 一 
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可 能 是 低 质量 染色 体 的 基因 经 过 重组 ， 结 合 了 其 他 染色 体 的 基因 而 变 得 优秀 。 
通过 这 种 偶然 性 的 机 会 ， 使 进化 过 程 更 加 灵活 ， 但 是 在 固定 设置 下 ， 这 些 情 况 是 
不 可 能 出 现 的 。 


= 





T 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
o 解释 遗传 算法 的 主要 原理 。 染 色 体 个 体 是 如 何 被 描述 的 ?“ 存 活 机 会 
(survival chance)” 的 含义 是 什么 ? 
© 总 结 遗 传 算 法 的 基本 循环 。 
e 与 确定 性 存活 相 比 ， 根 据 概率 的 存活 有 哪些 优点 ? 


请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 











13.2 单个 模块 的 实现 





我 们 仔细 看 一 看 怎样 用 计算 机 程序 来 实现 遗传 算法 的 基本 特征 : 存活 游戏 ， 
配对 (配偶 选择 ) ， 染 色 体 重组 ， 以 及 变异 。 我 们 从 最 简单 的 解决 方案 开始 ， 更 
先进 的 技术 放 到 后 续 章 节 中 讨论 。 

为 简化 起 见 ， 假 设 染 色 体 用 二 进 制 位 串 表 示 ， 如 “1 1011001”， 其 中 每 一 
位 代表 一 个 属性 ， 属 性 存在 ， 该 位 为 1， 属 性 不 存在 ， 该 位 为 0。 因 此 在 简化 版 的 
“ 派 ” 问 题 中 ， 第 一 个 位 可 表示 外 壳 (crust) 是 不 是 厚 的 、 第 二 位 可 表示 馅 料 
(filling) 是 不 是 黑色 的 等 。 

初始 种 群 。 产 生 初 始 种 群 最 简单 的 方法 是 使 用 随机 数 发 生 器 。 有 时 ， 设 计 者 可 
依靠 已 有 的 信息 产生 更 好 的 初始 种 群 。 在 “ 派 ”问题 中 ， 关 于 正 例 的 描述 就 是 这 种 
信息 。 然 而 ， 无 论 什 么 方法 都 需要 保证 初始 种 群 足够 大 ， 并 且 有 很 好 的 多 样 性 。 

存活 游戏 。 遗传 算法 假定 有 一 种 方法 来 计算 每 个 样本 的 存活 机 会 。 在 某 些 
用 中 ,个体 样本 在 实际 实验 的 竞争 中 获得 存活 机 会 。 在 其 他 一 些 领 域 , 可 通过 用 
户 指 定 的 评估 函数 计算 适应 度 ， 适 应 度 值 取决 于 染色 体 的 属性 。 如 果 染 色 体 代表 
分 类 器 ， 则 适应 度 函 数 可 用 该 分 类 器 对 训练 样本 做 出 正确 分 类 的 百分比 来 表示 。 









































=} 
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个 体 的 存活 由 概率 决定 。 看 一 下 如 何 用 程序 实现 “幸运 轮 ”。 令 F, 表示 第 i 
个 样本 的 适应 度 , 令 下 = DF, 是 所 有 样本 适应 度 之 和 ， 所 有 适应 度 分 布 在 区 间 
(0,， 玉 ] 。 存 活 率 用 随机 数 生成 顺从 区 间 (0, F] 随机 生成 一 个 值 > 来 建 模 : 被 
命中 的 连续 子 域 指向 存活 者 。 图 13. 2 给 出 了 包括 4 个 样本 的 小 规模 种 群 ， 一 个 随 
机 数落 在 第 3 个 区 间 上 ， 于 是 3 号 个 体 被 选中 。 如 果 最 终 希 望 20 个 样本 存活 ， 则 
要 生成 20 个 随机 数落 在 (0, F] 区 间 上 来 标 出 存活 者 。 




















个 体 1 个 体 2 个 体 3 个 体 4 


图 13.2 轴 代 表 种 群 中 的 4 个 个 体 。 适 应 度 分 别 为 8、5、9 和 3。 因 为 随 
机 产生 的 数字 15 落 在 第 3 个 区 间 ， 所 以 第 3 个 个 体 被 选中 

鉴于 适应 度 小 的 样本 可 能 被 淘汰 ， 那 些 适 应 度 大 的 样本 能 够 在 存活 池 中 出 现 
不 止 一 次 。 生 物 学 家 不 会 想到 这 种 “克隆 ”， 但 在 计算 机 程序 世界 中 ， 相 同 的 个 
体 可 以 存活 两 次 ， 三 次 ， 甚 至 更 多 次 。 

配对 算 子 。 生 存 游戏 接 下 来 进行 配对 。 自 然 界 中 , 个体 根据 力量 、 速 度 或 利 
齿 判断 配偶 是 否 合适 。 在 计算 机 中 ， 是 通过 适应 度 函 数 来 判断 的 。 两 者 的 区 别 在 
T: 性 别 通 常 被 忽略 ， 而 染色 体 可 以 和 任何 其 他 染色 体 配对 。 

最 常见 的 策略 是 个 体 任意 配对 ， 如 产生 区 间 [1，WN,]」 里 随机 的 整数 对 ， 其 中 N, 
是 样本 在 种 群 中 的 代号 。 但 这 种 做 法 没有 考虑 适应 度 高 的 个 体 比 其 他 个 体 更 有 吸引 力 。 
一 种 简单 的 改进 策略 是 把 所 有 个 体 按 适 应 度 从 大 到 小 排序 ， 让 相 邻 的 两 个 配对 。 

男 一 种 策略 是 让 概率 决定 。 首 先 选 出 等 级 最 高 的 个 体 ， 然 后 用 图 13. 2 所 示 的 
生存 游戏 的 机 制 选 出 它 的 配偶 。 对 等 级 第 二 高 的 个 体 也 做 同样 处 理 ， 然 后 是 第 三 
个 ,依次 类 推 ， 直 到 新 种 群 达 到 所 需 的 规模 。 这 种 策略 下 ,，“ 较 好 的 ”个 体 可 能 
(尽管 不 保证 ) 和 其 他 强壮 的 个 体 配 对 ， 有 时 可 能 配对 的 值 很 低 (因为 根据 概率 
选择 ) ， 但 这 增加 了 多 样 性 。 这 些 低 质量 样本 中 的 优秀 染色 体 片段 ， 系 统 有 机 会 把 
它们 保留 下 来 。 
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长 寿 和 永生 的 个 体 。 这 种 算法 的 缺点 是 很 好 的 有 机 体 可 能 被 低 值 的 后 代 取代 ， 
优秀 基因 最 终 消 失 。 为 避免 发 生 这 种 情况 ， 计 算 机 程序 把 最 好 的 样本 直接 复制 到 
新 生 代 中 ， 和 后 代 放 在 一 起 。 例 如 ， 程 序 直 接 在 新 一 代 中 插入 20% 最 好 的 样本 ， 
再 对 95% 较 好 的 个 体 应 用 重组 、 变 异 ， 生 成 其 余 的 80% ， 最 差 的 5% 完全 忽略 。 
用 这 种 方法 ,不仅 最 好 的 样本 会 活 得 更 久 〈 甚 至 变 成 “永生 ”) ， 而 且 那 些 偶然 存 
活 的 特别 弱 的 样本 也 会 被 去 掉 。 

染色 体重 组 : 单 点 交叉 。 实 现 染色 体重 组 最 简单 的 办 法 是 单 点 交叉 (one-point 
crossor) ， 一 种 把 父辈 染色 体 信息 进行 部 分 交换 的 操作 。 原 理 很 简单 :假设 每 个 染 
色 体 由 一 条 位 的 串 构成 ， 一 个 随机 数 发 生 需 返回 一 个 整数 ;es [1, n] FÆ, $ 
一 条 染色 体 的 最 后 i 个 位 (长 度 为 i 个 位 的 尾 ) 和 第 二 条 染色 体 的 最 后 i 个 位 互 
换 。 具 体操 作 中 允许 ;=m， 这 种 情况 下 两 个 后 代 只 复制 它们 的 父辈 。 在 下 面 的 例 
子 中 ， 随 机 整数 ;=4， 表 示 4 位 长 的 尾 被 交换 〈 交 义 点 用 空格 标 出 ) 。 

1101 1001 1101 O111 






































= 
0010 0111 0010 1001 

MA HE ASME MN RAR, Rae ene, 4isn-1 时 ， 
父辈 和 后 代 间 距离 达到 最 大 。 

在 很 多 应 用 中 ， 重 组 算 子 只 用 于 一 定 比例 的 个 体 。 例 如 ， 如 果 50 对 选 作 配对 ， 
用 户 设 重组 概率 为 80% , ABA RA 40 对 重组 ， 其 余 10 对 只 是 复制 进入 下 一 代 。 

变异 算 子 。 变 异 的 任务 是 改变 继承 的 基因 信息 。 说 得 具体 一 点 ， 就 是 一 个 很 小 
百分比 的 位 翻转 了 一 下 ， 如 一 个 位 的 值 由 0 变 成 1， 或 相反 。 具 体 的 百分比 的 数值 
(变异 的 频率 ) 是 用 户 设 定 的 参数 。 假 设 这 个 参数 要 求 = 0. 001 的 位 要 受 影响 。 
相应 的 计算 机 程序 要 为 每 一 个 位 产生 一 个 1 ~ 1000 之 间 的 随机 整数 。 如 果 这 个 整 
数 等 于 1， 则 该 位 的 值 改变 ， 否 则 不 变 。 

想 一 想 我 们 需要 的 变异 是 什么 频率 。 在 一 种 极端 情况 下 ， 如 果 变 异 极 少 ， 则 
几乎 不 会 有 什么 影响 。 另 一 种 极端 是 ， 变 异 频繁 发 生 ， 结 果 破 坏 了 太 多 的 染色 体 ， 
损害 了 遗传 搜索 。 如 果 频 率 接近 50% ， 则 新 的 染色 体会 变 得 像 一 个 随机 生成 的 位 
B, 遗传 算法 就 退化 成 为 随机 数 发 生 器 。 

变异 算 子 和 交叉 算 子 实现 的 目的 不 同 。 单 点 交叉 没有 产生 新 信息 ， 只 是 将 现 
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有 的 子音 做 交换 。 变 异 引 入 了 过 去 种 群 中 不 存在 的 一 些 新 的 样式 。 


Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 间 题 。 如 果 在 解答 过 程 中 
有 任何 困难 ,请 回顾 本 节 的 相关 内 容 。 

o 生存 游戏 的 主要 任务 是 什么 ? 如 何 用 计算 机 程序 来 实现 它 ? 

© 描述 选择 配对 体 的 简单 机 制 。 简 述 重组 算 子 和 变异 算 子 。 




















13.3 为 什么 能 起 作用 


我 们 直观 地 解释 一 下 遗传 算法 的 性 能 。 

函数 最 大 化 。 表 13.2 中 所 示 简 单 问题 的 目标 是 找到 的 值 ， 使 函数 f(x) = 
x 一 x 的 值 最 大 。 表 13.2 的 上 半 部 分 的 表 的 第 二 列 里 的 每 一 条 染色 体 都 表示 为 一 
个 二 进 制 码 的 整数 ， 对 应 的 十 进 制 值 列 在 第 三 列 中 。 第 四 列 给 出 了 对 应 的 函数 值 
f(x) ， 函 数值 概率 在 第 五 列 里 ， 该 值 决定 了 个 体 的 存活 概率 。 例 如 ， 第 一 个 样本 
的 f(x) =12? -12 =132， 相 对 存活 概率 (在 特定 种 群 中 ) 是 12% ， 因 为 132/(132 
+600 +56 +342) =0. 12。 最 右 列 告诉 我 们 每 个 个 体 被 选择 进入 下 一 代 中 的 次 数 。 























表 13.2 遗传 算法 说 明 





假设 希望 遗传 算法 找到 f(x) =x -x 的 最 大 值 。 令 * 为 以 二 进 制 串 表 示 的 整数 。 初 始 





















































种 群 由 4 个 位 串 组 成 ， 在 表 中 每 个 串 给 出 了 整数 值 x>、 对 应 的 Kx) 、 生 存 概率 (f(x) 的 比 
例 ) ， 以 及 该 样本 在 下 一 代 中 被 选中 的 次 数 。 
No. 初始 种 群 x xX? 一 存活 机 会 选中 次 数 
1 01100 12 132 0. 12 1 
2 11001 25 600 0. 50 2 
3 01000 8 56 0. 05 0 
4 10011 19 342 0.31 1 
平均 值 282 
最 大 值 600 
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( 续 ) 
上 述 相 邻 的 样本 进行 配对 ， 分 别 交换 1 位 长 的 尾 和 3 位 长 的 尾 ， 尾 的 长 度 随机 产生 

(空格 代表 交叉 点 ) ， 没 有 用 到 变异 。 最 后 两 列 给 出 了 后 代 的 x 和 f(x) 的 值 。 

初始 种 群 | 配对 | 尾 长 度 | 新 种 群 | x | x-a 

0110 0 2 1 01101 | 13 | 156 

1100 1 1 1 11000 | 24 | 552 

11 001 4 3 11011 | 27 | 702 

10 011 3 3 10001 | 17 | 289 

平均 值 425 

最 大 值 702 





























读者 可 以 看 到 最 好 样本 的 值 以 及 整个 种 群 的 平均 值 都 增加 了 。 














下 一 步 ， 存 活 者 找到 它们 的 配偶 。 假 定 我 们 把 相 邻 样本 进行 配对 : 第 一 个 和 
第 二 个 ， 第 三 个 和 第 四 个 。 接 下 来 ， 交 叉 点 随机 决定 第 一 对 交换 1 位 长 的 尾 ， 

二 对 交换 3 位 长 的 尾 ， eters nae kine ine 
最 后 3 Woy al ear A) — BE A EB | ORE PE TBC foe) 的 值 。 注 意 到 适应 度 函 数 
的 均值 和 最 大 值 都 增加 了 。 

后 代 必 须要 优 于 它们 的 父辈 吗 ? 让 我 们 看 看 是 什么 引起 了 这 种 改进 。 在 图 
13.3 中 给 出 了 直观 的 回答 。 图 中 显示 了 两 个 父辈 的 位 置 及 存活 函数 的 x) 的 值 ( HE 
直 虚 线 ) 。 当 两 条 染色 体 交 换 4 位 长 的 尾 时 ， 产 生 了 两 个 后 代 ， 和 父辈 相当 接近 。 
每 个 后 代 所 在 位 置 的 f(x) 均 比 父 非 高 的 情况 回避 了 一 个 问题 ， 后 代 是 否 总 要 比 父 
辈 更 适应 ? 事实 远 非 如 此 。 这 些 都 取决 于 交换 尾部 的 长 度 以 及 适应 度 函 数 的 形状 。 
想象 一 下 ， 到 了 下 一 代 ， 两 个 后 代 再 次 配对 ， 随 机 生成 的 交叉 点 也 在 原来 的 位 置 。 
于 是 这 两 个 后 代 的 后 代 就 会 成 为 最 初 的 两 个 串 〈 他 们 的 祖父 ) ， 这 意味 着 存活 几 
率 减 小 回 最 初 的 值 。 有 时 两 个 后 代 都 优 于 父辈 ; 也 有 了 时 都 弱 于 父 非 ; 更 常见 的 是 
混合 情况 。 重 要 的 是 ,在 一 个 大 的 种 群 中 ， 多 数 更 好 的 样本 存活 下 来 ， 因 为 进化 
过 程 喜欢 选择 适应 度 f(x) 更 强 的 个 体 。 不 适合 的 样本 偶尔 会 幸存 ， 但 在 长 期 过 程 
中 它们 还 是 容易 被 淘汰 的 。 
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Se) 





: 0011 1110 0101 1001 : x 
0011 1001 0101 1110 


图 13.3 交换 4 位 的 尾 后 ， 两 条 父 染 色 体 ( 上 面 的 串 ) 产生 两 个 后 代 (下 面 的 
串 ) 。 至 少 一 个 后 代 将 有 机 会 优 于 两 个 父辈 


如 果 交 换 的 尾 串 很 得， 则 后 代 和 父辈 的 染色 体 将 很 接近 ; 如 果 很 长 ， 则 后 代 


和 父辈 间 的 相似 之 处 就 少 。 至 于 变异 ， 后 代 和 父辈 间 的 相似 性 取决 于 哪些 位 变异 
了 。 如 果 是 最 左边 的 位 ， 则 变异 将 引起 染色 体 的 值 沿 水平 负 有 很 大 的 跳跃 。 如 果 





3% 











RAHAM, NUDE, PURE UL FERRER EHRE DE AER 
父辈 染色 体 附 近 的 空间 ， 前 者 是 探索 其 他 空间 。 
适应 度 函 数 的 形状 。 在 适应 度 函 数 的 定义 中 有 一 些 固有 的 潜在 陷阱 ， 如 图 














13.4 所 示 ， 左 侧 的 函数 几乎 是 平 的 ， 不 同 的 个 体 几 乎 有 相同 的 存活 机 会 ， 这 达 不 
到 存活 游戏 的 目的 。 当 存活 考 从 近乎 一 致 的 分 布 中 选 出 的 时 候 ， 这 些 个 体 的 质量 
不 会 有 明显 的 苋 争 优势 。 这 个 缺点 可 通过 使 f(x) 不 要 那么 平坦 来 改善 。 有 无 数 种 
方法 可 以 做 到 ， 如 用 [f(x)]? 来 替代 f(x)。 

















fos) fos) 
dA i 
X x 


a) b) 


图 13.4 难以 指导 遗传 搜索 的 两 个 适应 度 函 数 的 例子 。 为 了 有 用 ， 存 活 函 数 不 应 
太平 坦 ， 也 不 应 包括 独立 的 尖峰 
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图 13.4b 显示 了 另外 一 种 陷阱 : 独立 的 尖峰 。 在 和 尖峰 的 宽度 比较 时 ， 后 代 
会 觉得 它们 和 父辈 隔 得 很 远 。 例 如 ， 如 果 父 辈 刚好 躺 在 一 个 山脚 下 ， 后 代 可 能 在 
相对 的 一 侧 ， 这 种 情况 下 ， 人 尖峰 将 不 会 被 注意 到 。 这 种 问题 比 前 面 的 问题 更 难 
预防 。 





Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
o 解释 交叉 点 的 位 置 是 如 何 决 定 后 代 和 父辈 间 有 多 大 差别 的 。 
o 解释 重组 和 变异 之 间 的 相互 作用 是 如 何 影 响 存 活 机 会 的 。 说 明 它 们 又 是 如 
何 依赖 存活 函数 的 形状 以 及 父辈 位 置 的 。 





























13.4 wR EY fake 

















如 果 遗 传 算法 取得 的 值 不 是 经 过 一 系列 改善 得 到 的 ， 那么 就 意味 着 搜索 是 失 
败 的 。 这 种 稳定 的 状态 可 用 其 他 情况 来 解释 。 

过 早退 化 。 简 单 的 遗传 算法 达到 预定 的 代数 后 将 停止 。 一 个 更 精巧 的 版 本 是 
跟踪 迄今 为 止 得 到 的 最 高 的 适应 度 值 ， 当 这 个 值 不 再 提高 时 停止 搜索 。 

然而 这 里 有 个 问题 。 适 应 度 达 到 稳定 水 平 (plateau) 并 不 能 保证 问题 找到 了 
解 。 更 准确 地 说 ， 搜 索 过 程 可 能 是 到 达 了 所 谓 过 早退 化 (premature degeneration ) 
的 阶段 。 假 设 表 13. 2 中 的 搜索 得 到 如 下 一 个 种 群 : 





0 1 0 0 0 
0 10 0 1 
0 1 0 0 
0 1 0 0 

















0 

0 
改进 这 个 种 群 的 机 会 是 什么 ? 重组 不 会 改变 什么 。 如 果 最 后 两 个 染色 体 配对 
了 ， 后 代 只 是 复制 了 父 非 。 如 有 果 前 两 个 配对 ， 则 1 点 交叉 只 能 交换 最 右边 的 位 ， 
也 不 会 产生 新 的 染色 体 。 能 引起 改变 的 唯一 办 法 是 变异 。 通 过 改变 适当 的 位 ， 变 
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异 可 以 再 次 引发 搜索 。 例 如 ， 当 变异 发 生 在 第 一 条 染色 体 的 第 3 位 (从 左 数 ) 和 
最 后 一 条 的 第 4 位 时 。 不 幸 的 是 ， 变 异 极 少见 ， 等 它 出 现 不 现实 。 事 实 上 ， 过 早 
退化 意味 着 搜索 卡 住 了 。 

防止 过 早退 化 。 过 早退 化 和 种 群 的 多 样 性 (diversity) 息息相关 。 不 好 的 种 群 
里 所 有 染色 体 的 位 串 都 完全 一 样 ， 这 需要 人 避免。 计算 机 实现 时 需要 用 一 个 模块 来 
监视 种 群 的 多 样 性 ， 当 下 降 到 某 个 水 平时 将 采取 措施 。 识 别 这 种 情况 的 简单 做 法 
是 计算 染色 体 对 之 间 的 平均 相似 度 ， 可 以 用 计算 每 个 串 中 相同 位 的 个 数 来 实现 。 
例如 , 串 “00100” 和 “01100” 的 相似 度 是 4 (4 个 位 相同 ) ，“0 1010” 
和 “10101” 的 相似 度 是 0。 

一 旦 检测 到 染色 体 间 的 平均 相似 度 出 现 大 的 下 降 ， 则 系统 必须 做 出 反应 。 这 
还 不 会 引发 警报 。 例 如 ， 在 函数 最 大 化 的 例子 中 ， 当 大 多 数 样 本 接近 最 大 值 时 ， 
先进 的 代 将 会 被 种 群 标记 出 来 。 这 种 “退化 ”当然 不 会 被 当成 “过 早 ”。 然 而 ， 
如 果 最 好 的 染色 体 和 问题 的 解 有 很 大 差别 ， 则 形势 就 不 同 了 。 这 种 情况 下 ， 我 们 
必须 增加 多 样 性 。 

增加 多 样 性 。 有 多 种 策略 。 最 简单 的 办 法 可 在 当前 种 群 里 插入 一 两 条 随 
机 产生 的 新 个 体 。 更 好 的 做 法 是 让 遗传 算法 并 行 运 行 在 两 个 种 群 上 ， 彼 此 独 
立 。 于 是 要 么 经 过 随机 时 间 间 隔 ， 要 么 在 怀疑 发 生 过 早退 化 时 ,一 个 种 群 的 
样本 允许 从 另 一 个 种 群 中 选择 配偶 。 当 使 用 这 种 技术 时 ， 我 们 需要 考虑 后 代 
放 到 哪个 种 群 里 。 

种 群 大 小 的 影响 。 种 群 大 小 需要 引起 设计 者 特别 的 注意 。 在 大 多 数 情 况 下 ， 
整个 基因 搜索 过 程 中 种 群 大 小 是 一 个 常数 。 种 群 中 个 体 数 量 由 具体 应 用 决定 。 根 
据 经 验 ， 较 小 的 种 群 要 经 历 很 多 代 才 可 以 达到 较 好 的 解 ， 除 非 它们 出 现 过 早退 化 。 
很 大 的 种 群 有 较 强 的 健壮 性 防止 退化 ， 但 可 能 引起 过 大 的 计算 开销 。 




































































D 你 学 到 了 什么 ? 


为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
o 遗传 算法 是 如 何 依靠 适应 度 定 义 取得 成 功 的 ? 两 个 主要 的 陷阱 是 什么 ? 如 


i 
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可 应 对 ? 

o 你 推荐 哪 种 终止 遗传 搜索 的 标准 ? 这 些 标准 各 有 什么 优 缺 点 ? 

e 什么 是 过 早退 化 (premature degeneration)? 如 何 检测 和 改正 ? 为 什么 种 群 
需要 多 样 性 ? 

© 讨论 种 群 大 小 的 影响 。 





13.5 其 他 遗传 算 子 


我 们 已 经 介绍 了 一 种 很 简单 的 遗传 算法 及 算 子 。 大 家 已 经 理解 了 其 原理 ， 接 
下 来 我 们 介绍 其 他 的 算 子 。 
两 点 交叉 。 上 面 介 绍 的 单 点 交 义 只 是 两 点 交叉 (two - point crossover) 更 一 般 
的 特例 。 现 在 ， 随 机 数 发 生 需 要 产生 两 个 整数 用 于 确定 位 串 中 的 两 个 位 置 。 父 辈 
将 在 这 两 个 位 置 进行 子 串 交换 ， 过 程 如 下 〈 交 又 点 用 空格 表示 ) : 
110 110 01 110 001 01 




















一 
001 001 11 001 110 11 
各 染色 体 的 两 个 交叉 点 可 以 不 同 。 这 时 父辈 将 用 如 下 方式 “交换 (trade )” 
子 串 : 








1 101 1001 1 001 1001 
001001 11.001 101 11 
随机 串 交换 。 在 染色 体重 组 模式 中 还 有 一 种 所 谓 的 “随机 位 交换 (random bit 
exchange)”。 随 机 数 产 生 器 选择 用 户 指定 数字 的 位 置 ， 然 后 交换 这 些 位 ， 如 下 
所 示 : 








11011001 10011101 
00100111 01100011 

这 里 第 2 位 和 第 6 位 〈 从 左 数 ) 被 交换 了 。 注 意 到 如 果 交 换 最 右 位 不 会 有 任 

何 变 化 ， 因 为 在 两 个 染色 体 中 这 两 个 位 的 值 是 相同 的 。 交 换 的 二 进 制 位 的 个 数 可 
以 变化 ,但 大 多 数 应 用 中 交换 的 位 数 比 染色 体 长 度 要 小 得 多 。 

现实 中 经 常 把 两 种 或 多 种 重组 算 子 相 结 合 。 例 如 ， 选 出 的 一 对 父辈 有 50% 的 
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概率 用 两 点 交叉 ， 有 30% 的 概率 用 随机 位 交换 ， 有 20% 的 概率 可 能 是 根本 不 用 
重组 。 

逆序 变异 。 重 组 算 子 作用 于 成 对 的 染色 体 ， 其 他 一 些 算 子 作 用 于 单个 样本 。 
变异 是 一 种 ， 逆 序 变 异 (inversion) 是 为 一 种 。 在 典型 实现 中 ， 随 机 数 发 生 右 返 
回 两 个 整数 ， 定 义 了 位 串 中 的 两 个 位 置 (类 似 两 点 交 又 )。 于 是 两 个 位 置 间 的 子 
串 被 反 转 如 下 : 




















110 110 01 = 110 011 01 

注意 到 在 第 3 位 到 第 7 位 间 (MEO 的 子 串 中 , 0 和 1 的 次 序 颠 倒 了 〈 即 
第 4、5、6 位 旋转 变 成 了 6、5、4) 。 两 点 的 位 置 决 定 了 反 转 对 染色 体 的 影响 。 如 
果 两 个 整数 彼此 接近 ， 如 4 和 7， 那么 只 有 一 小 部 分 染色 体 受 影响 。 

在 高 级 实现 中 ， 逆 序 变异 是 对 变异 的 补充 。 例 如 ， 一 个 染色 体 指定 位 发 
生变 异 的 概率 可 设 为 0.2% ， 而 随机 子 串 逆 序 变异 发 生 的 概率 是 0.7% 。 与 变 
异 相似 ， 要 非常 小 心 以 确保 道 序 算 子 极 少 被 使 用 ， 使 用 过 度 会 毁坏 重组 的 积 
极 贡 献 。 

逆序 变异 和 过 早退 化 。 在 防止 过 早退 化 上 ， 逆 序 变异 比 变异 的 表现 要 好 得 多 。 
想 知 道 为 什么 ， 看 一 看 下 面 这 个 退化 种 群 : 

01000 











01001 

01000 

01000 
逆序 第 一 个 染色 体 的 中 间 3 位 和 第 2 个 染色 体 的 最 后 3 位 ， 可 得 到 下 面 的 
种 群 : 








00010 
01100 
01000 
01000 
读者 可 以 发 现 多 样 性 的 确 增加 了 。 可 以 用 这 种 简单 的 方法 处 理 过 早退 化 : 不 
断 增 加 (暂时 的 ) 逆序 和 变异 的 频率 。 
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j 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

© 解释 单 点 交叉 、 两 点 交叉 以 及 随机 位 交换 的 区 别 。 

e 哪些 具体 方面 使 得 重组 算 子 与 变异 及 逆序 算 子 不 同 ? 

o 逆序 变异 如 何 影响 遗传 搜索 ? 

13.6 ”高 级 版 本 

遗传 算法 是 一 个 通用 的 一 般 框 损 ， 有 无 数 可 能 的 变化 。 本 节 将 介绍 两 种 有 趣 
的 技术 。 

拉 马 克 (Lamarckian) 选择 的 说 明 。 计 算 机 程序 不 像 生 物 学 那样 会 受到 限 
制 。 设 计 者 常 抛弃 这 些 限制 ， 就 像 早期 飞行 员 抛弃 了 羽毛 翅膀 的 想法 那样 。 在 创 
造 “ 永 生 ” 样 本 时 我 们 就 违反 过 限制 ， 把 样本 直接 复制 进 后 代 从 而 免 受 到 重组 和 
变异 的 破坏 。 接 下 来 再 看 看 男 一 种 情况 。 

在 基准 遗传 算法 中 ， 新 的 子 串 只 能 在 重组 和 变异 的 随机 过 程 中 产生 。 在 这 之 
后 ， 遗 传 信息 在 样本 整个 生命 周期 中 都 将 保持 不 变 。 一 个 比 达 尔 文 更 早 的 生物 学 
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让 - 巴 带 斯 特 . 拉 马 克 (Jean-Baptiste Larmarck) 的 想法 更 加 灵活 : 他 认为 生物 








体 的 进化 是 受 需求 驱动 的 。 长 颈 庆 为 了 能 吃 到 高 处 的 树叶 而 不 停 地 伸 脖 子 ， 于 是 
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子 变 长 ， 长 脖子 这 一 进化 又 遗传 给 后 代 。 尽 管 拉 马 克 的 假说 在 生物 学 里 被 认为 
不 成 立 的 ， 但 是 在 其 他 领域 并 不 是 完全 没有 用 。 例 如 ， 研 究 人 员 可 通过 发 表 科 
论文 把 知识 传递 给 后 来 人 。 

相 比 经 典 的 达尔 文 进化 过 程 ， 拉 马克 的 进化 过 程 要 快 得 多 ， 这 就 是 为 什么 我 
要 在 遗传 算法 中 实现 它 的 原因 。 把 这 个 概念 并 入 到 图 13. 1 所 示 的 循环 中 的 最 简 


















































单 的 办 法 是 把 “ 拉 马 克 ” 算 子 放 在 “幸运 轮 ” 和 重组 算 子 之 间 。 拉 马克 算 子 的 任 


务 
发 








是 通过 适应 性 来 改善 染色 体 。 例 如 ， 我 们 可 以 设 问 ， 如 果 某 一 位 产生 了 变异 会 
生 什 么 ?因为 变异 是 不 可 逆 的 ， 所 以 我 们 可 以 在 变异 过 程 中 更 灵活 一 些 ， 先 测 
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试 当 第 i 位 翻转 后 将 发 生 什么 ， 然 后 选择 较 好 的 版 本 。 

多 种 群 搜索 。 多 种 群 搜索 要 和 遗传 算法 依靠 的 多 参数 一 起 进行 。 大 多 数 时 候 
要 靠 个 人 的 经 验 ， 另 外 也 可 以 在 相同 的 初始 种 群 上 并 行 地 运行 多 个 遗传 算法 ， 每 
个 都 有 各 自 的 变异 频率 、 是 否 逆序 变异 、 不 同 的 重组 算 子 的 组 合 或 修改 过 的 适应 
度 函 数 。 在 这 些 情况 中 ， 有 一 些 搜索 能 更 快 地 找到 解 。 

回忆 一 下 在 讨论 过 早退 化 那 一 节 曾 提 到 的 多 种 群 搜索 。 在 那里 建议 让 两 个 或 
多 个 种 群 在 相对 隔绝 的 情况 下 独立 进化 ， 偶 尔 允 许 异 种 杂交 。 而 如 果 种 群 使 用 了 
本 文 前 面 提 到 的 不 同 的 染色 体 定义 ， 则 这 种 杂交 可 能 不 容易 实现 。 这 时 编程 人 员 
需要 使 用 专门 的 程序 实现 一 种 编码 向 另 一 种 编码 的 转换 。 

数据 串 ， 符 号 串 。 染 色 体 编码 不 需要 必须 是 二 进 制 位 串 ， 也 可 以 是 数字 串 或 
字符 串 。 前 面 提 到 的 重组 算 子 都 可 以 用 于 这 两 种 编码 形式 ， 但 变异 算 子 需要 做 些 
改变 。 在 数字 串 中 最 常见 的 变异 是 用 “噪声 ” 受 加 到 部 分 (或 全 部 ) 染色 体 的 
“基因 ”上 。 例 如， 如 果 所 有 的 位 置 包含 区 间 [0, 100] 的 数字 ， 于 是 噪声 就 可 
以 建 模 为 区 间 [-a, +a] 的 随机 数 ， 其 中 a 是 用 户 指 定 的 参数 ， 类 似 于 前 面 二 
进 制 串 中 的 变异 频率 。 它 的 工作 原理 见 下 表 : 



































变异 前 10 22 17 42 16 
w P33 | ot 
变异 后 10 19 18 40 16 


如 果 染 色 体 是 字符 串 的 形式 ， 则 情况 会 略微 不 同 。 这 时 变异 可 以 用 随机 数 产 
生 兢 选 出 的 符号 来 代替 染色 体 中 随机 选 出 的 字符 。 例 如 ， 对 染色 体 “dsrdwk 
1”， 变 异 可 以 把 左边 第 3 位 的 + 变 为 s8， 最 终 染色 体 成 为 “dssdwk1”。 

“混合 ”染色 体 也 是 可 能 的 。 这 时 有 些 位 置 是 二 进 制 位 ,一 些 是 数字 ， 男 
些 是 字符 。 这 里 变异 通常 是 一 些 单独 方法 的 组 合 的 实现 。 例 如 ， 程 序 选择 染色 体 
中 一 个 随机 的 位 置 ， 首 先 判断 该 位 置 是 二 进 制 位 、 数 字 ， 还 是 字符 ， 然 后 应 用 适 
当 的 变异 方法 。 

树 结 构 形 式 染 色 体 。 在 一 些 应 用 中 ， 二 进 制 位 串 、 数 字 串 、 字 符 串 都 不 适合 ， 
树 结构 可 能 更 加 灵活 。 当 分 类 需 以 逻辑 表达 式 的 形式 出 现时 ， 如 图 13. 5 所 示 的 例 
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子 ， 表 达 式 用 树 状 的 染色 体 表示 。 


(shape = circle A crust — size = thick) V 4 crust - shade = grey 


y 


Y 
A J 
Y 
shape=circle ( crust—shade=grey ) 


( crust—size=thick ) 


























图 13.5 “ 派 ”问题 候选 表达 式 的 树 形 表示 





表达 式 由 属性 、 属 性 的 值 、 与 、 或 、 非 逻辑 算 符 构成 。 可 以 看 到 表示 成 树 形 
结构 是 很 自然 的 。 内 部 结 点 代表 逻辑 算 子 ， 叶 子 包含 属性 - 值 对 ， 重 组 交换 子 树 。 
变异 影响 叶子 或 者 是 属性 的 名 称 ， 或 者 是 属性 的 值 ， 或 两 者 都 是 。 另 一 种 可 能 的 
变异 是 偶尔 用 V 代替 人 A ， 或 者 相反 。 

初始 种 群 的 产生 方式 应 引起 特别 的 注意 。 编 程 人 员 应 确保 种 群 中 已 包含 
了 一 些 有 意义 的 表达 式 。 一 种 可 能 的 方式 是 产生 一 组 随机 表达 式 ， 在 其 中 插 
入 一 些 有 意义 的 样本 。 存 活 函 数 ( 将 取 最 大 值 ) 可 以 被 定义 为 训练 集 上 的 分 
类 ; 


















































Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

e 达尔 文 和 拉 马 克 的 进化 过 程 有 什么 不 同 ? 哪 一 种 更 快 ? 

© 多 种 群 造 传 算法 弥补 了 什么 不 足 ? 多 种 群 以 什么 方式 解决 了 这 个 问题 ? 

e 如 果 染 色 体 是 一 个 二 进 制 位 、 数 字 、 字 符 的 混合 串 ， 那 么 如 何 实现 变异 

操作 ? 
o 当 染 色 体 是 树 形 结构 时 ， 如 何 实现 重组 和 变异 操作 ? 
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13.7 k-NN 分 类 器 的 选择 


我 们 看 一 下 遗传 算法 在 一 个 机 顺 学 习 领 域 实际 问题 上 的 应 用 。 

属性 选择 与 样 例 选择 。 我 们 知道 一 个 成 功 的 k-NN 分 类 融 依赖 于 样 例 的 质量 以 
及 对 描述 这 些 样 例 的 属性 的 选择 。 选 择 正确 的 样 例 和 属性 的 问题 很 容易 转换 为 搜 
索 问 题 。 例 如 ， 初 态 可 以 定义 为 完整 的 样 例 以 及 完整 的 属性 ; 搜索 算 子 就 是 去 掉 
样 例 和 /或 属性 ; 评估 函数 (将 取 最 小 值 ) 被 定义 为 1-NN 规则 在 一 个 独立 的 测试 
集 上 达到 的 误差 率 。 

男 一 种 可 能 是 采用 遗传 算法 。 关 键 是 需要 确定 如 何 把 问题 表示 成 染色 体 ， 如 
何 定 义 适 应 函数 、 重 组 以 及 变异 算 子 。 然 后 ， 需 要 清楚 如 何 解释 〈 或 利用 ) 搜索 


H, 
结果 。 


染色 体 编码 问题 。 一 个 很 简单 的 办 法 可 以 把 二 进 制 编码 的 染色 体 分 成 两 部 分 : 
第 一 部 分 的 每 个 位 置 对 应 一 个 训练 样 例 ， 第 二 部 分 的 每 个 位 置 对 应 一 个 属性 。 如 
果 某 位 是 0， 则 对 应 的 样 例 和 属性 被 忽略 ， 否 则 保留 。 适 应 度 函 数 被 设计 用 来 找 
出 最 小 化 1 的 数目 。 

当 训 练 集中 包含 太 多 的 样 例 时 ， 这 种 解决 方案 将 会 导致 很 长 的 不 切实 际 的 染 
色 体 ， 如 果 训 练 集 包含 1 万 个 样 例 ， 则 需要 1 万 个 二 进 制 位 。 更 好 的 解决 办 法 是 
选择 更 灵活 的 编码 形式 ， 染 色 体 中 的 元 素 包 含 一 个 指向 训练 样 例 或 属性 的 整数 。 
染色 体 的 长 度 是 相关 属性 加 上 代表 性 样 例 的 数目 。 这 种 机 制 被 称 为 值 编码 (value 
encoding) ， 如 图 13. 6 所 示 。 































































































染色 体 1 染色 体 2 
样本 : 
样 例 属性 


























图 13.6 每 个 样本 用 两 个 染色 体 来 描述 ， 一 个 表示 样 例 ， 一 
个 表示 属性 。 重 组 独立 地 应 用 在 两 者 上 面 
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解码 染色 体 。 我 们 必须 保证 正确 地 解码 染色 体 对 。 例 如 ， 样 本 “3，14，39”， 
“2，4” 表 示 由 3、14 和 39 三 个 训练 样 例 组 成 的 训练 子 集 ， 用 第 2 个 和 第 4 个 属 
性 来 描述 。 当 这 种 样本 用 作 分 类 器 时 ， 系 统 选 出 第 一 个 染色 体 所 决定 的 样 例 和 第 
二 个 染色 体 所 决定 的 属性 去 描述 它们 。 向 量 x = (0, e a) My=(n, e ya) 
间 的 距离 可 用 式 (13.1) 计算 . 























(13.1) 





Deny) = | $, dlrs) 
HP, d (x, y) 是 第 i 维 的 贡献 。 对 数字 属性 ， 这 个 贡献 可 用 欧 几 里 得 距 
离 公式 来 计算 ， 即 d(x;，y;) = (%; -y;)”; 对 二 进 制 位 属性 和 离散 属性 ， 可 以 定义 
“ix, =y lt, d(x,, y) =0; 当 x,#y; 时 , d(x,, y) =1. 
适应 度 函 数 。 下 一 个 问题 是 如 何 量化 个 体 的 存活 几率 。 我 们 想 要 在 不 损失 分 
类 带 精 度 的 条 件 下 减少 样 例 和 属性 的 数量 。 但 这 些 需 求 是 矛盾 的 ， 因 为 在 无 噪声 
的 情况 下 ， 全 部 训练 集 比 缩减 的 训练 集 有 更 高 的 分 类 性 能 。 同 样 地 ， 如 果 属 性 能 
提供 相关 信息 ， 则 去 掉 它 们 很 难说 对 分 类 是 有 积极 影响 的 。 
应 该 让 用 户 有 机 会 通过 设 定 适应 度 函 数 的 参数 进行 权衡 。 让 适应 度 函 数 要 么 
最 大 化 分 类 精度 ， 要 么 最 小 化 训练 样 例 和 属性 的 数量 。 这 可 以 用 式 (13.2) 来 达 
到 ， 其 中 Ei 是 在 给 定 的 样本 上 分 类 错误 的 训练 样 例 的 数目 ，N; 是 保留 样 例 的 数 
H, M, 是 保留 属性 的 数目 。 
f=l/(c, X Ep +c X Np +e, XN, ) (13.2) 
注意 到 如 果 样 本 的 错误 率 低 ， 保 留 样 合集 小 ， 并 且 很 多 属性 被 去 掉 ， 那 么 样 
本 的 适应 度 就 高 。 函 数 由 用 户 设 定 的 3 个 参数 c, 、c c 来 控制 ， 用 户 根 据 偏好 设 
置 它 们 的 权重 。 例 如 ， 如 果 c 高 ， 则 分 类 精度 被 加 强 。 如 果 c 、c 高 ， 则 重点 就 
分 别 放 在 最 小 化 保留 样 例 和 属性 的 数量 上 。 
本 应 用 中 的 遗传 算 子 。 父 辈 是 按 概率 选择 的 。 式 (13.3) 用 于 计算 样本 S' BK 
选择 的 概率 。 





































































































Prob(S’) = TO (13.3) 


这 里 , f(S') 是 样本 S 按 式 (13.2) 计算 的 适应 度 。 分 母 是 种 群 中 所 有 样本 
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的 适应 度 函 数 之 和 ， 这 使 得 概率 总 和 等 于 1。 

一 旦 一 对 父辈 被 选 出 ， 它 们 的 染色 体 将 通过 两 点 交叉 进行 重组 。 因 为 每 个 样 
本 用 一 对 染色 体 来 定义 ， 每 条 有 不 同 的 含义 ， 我 们 对 它们 分 别 进 行 重组 操作 。 令 
N, 表示 一 条 父 染 色 体 的 长 度 ，N, 表示 另 一 条 染色 体 的 长 度 。 使 用 统一 分 布 ， 算 法 
MAKE [1, M] 里 选择 一 对 整数 ， 从 闭 区 间 [1，w, ] 里 选择 另 一 对 整数 。 这 
两 对 分 别 定 义 了 染色 体 中 的 子 串 〈 第 一 和 最 后 的 位 置 包括 在 子 串 中 ) 。 交 叉 算 子 
接 下 来 交换 来 自 两 个 父 染 色 体 的 子 串 。 注 意 ， 因 为 各 子 串 可 能 尺寸 不 同 ， 所 以 后 
代 的 长 度 可 能 和 父辈 的 长 度 不 同 。 

图 形 示 例 。 原 理 如 图 13.7 所 示 ，A 和 B 染色体 的 中 间 部 分 被 交换 。 注 意 ， 这 
里 A 和 B 的 长 度 受 到 了 影响 。 需 要 决定 是 否 允 许 交 换 片 断 的 长 度 为 0， 或 另 一 个 


极端 : 一 个 片段 能 否 是 整个 父 染 色 体 。 



































图 13.7 ”两 点 交叉 算 子 通过 交换 在 父辈 染色 体 中 随机 选择 的 子 串 来 创 
建 子 染色 体 
变异 (mutation) 算 子 要 防止 种 群 过 早退 化 并 保证 种 群 在 搜索 空间 中 有 代表 
性 。 一 种 可 能 的 做 法 是 ， 在 新 产生 的 种 群 中 随机 选 定 一 定 比 例 的 位 置 ， 在 这 些 位 
置 中 放 和 人 独立 产生 的 随机 整数 。 结 果 取 样 例 / 属 性 数目 的 模 (mod) 。 令 样 例 /属性 
的 初始 数目 是 100， 选 出 来 的 包含 变异 的 位 置 的 数 是 95 。 如 果 随 机 产生 的 整数 是 
22， 则 变异 后 的 值 是 (95 +22) mod 100 =17。 

















Fi 你 学 到 了 什么 ? 

为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 

。 选择 最 好 的 属性 及 最 有 代表 性 的 样 例 可 做 到 什么 ? 

。 用 两 条 而 不 是 一 条 染色 体 有 什么 优点 ? 





292 


机 器 学 习 导 论 


需求? 


13.8 ”总结 


补充 。 
算法 通过 


适应 度 函 数 的 选择 如 何 反映 小 属性 / 样 例 集 和 高 分 类 精度 两 者 间 的 竞争 性 


为 什么 要 用 重组 来 交换 不 同 长 度 的 子囊? 变异 是 如 何 实 现 的 ? 





和 历史 简 评 


受 达 尔 文 的 进化 论 启发 产生 的 遗传 算法 是 对 传统 人 工 智能 搜索 技术 的 一 种 














最 简单 的 实现 是 使 用 二 进 制 编码 的 形式 。 
3 种 基本 操作 作用 于 种 群 中 的 个 体 ， 基 于 存活 的 适应 度 函 数 ， 成 





对 染色 体 的 重组 ， 以 及 变异 。 有 时 也 使 用 子 串 的 逆序 变异 。 




















实际 应 用 遗传 算法 时 常 遇 到 的 一 个 问题 是 种 群 的 过 早退 化 。 检 测 的 方法 是 





查看 种 群 中 染色 体 的 多 样 性 。 解 决 办 法 是 向 种 群 中 加 入 人 工 创建 的 染色 


体 。 逆 序 


形式 。 


历史 简 评 。 








子 算 子 也 有 用 。 


遗传 算法 还 可 用 于 数字 串 ， 符 号 ， 混 合 字 符 串 ， 甚 至 是 树 结 构 的 编码 








本 章 通过 一 个 简单 的 最 近邻 分 类 顺 问 题 示 范 了 遗传 算法 的 实际 使 用 。 


根据 生物 进化 理论 产生 遗传 算法 的 想法 归功 于 赫 兰 德 ” 


(Holland) ， 不 过 其 他 人 在 此 之 前 也 提出 过 类 似 的 想法 。 这 些 人 中 ， 需 要 提 到 的 是 
瑞 查 博 格 !91 (Rechenberg) ， 而 福 格 尔 ( Fogel) 、 欧 文 斯 (Owens) AIR AR FP! 
(Walsh) 是 遗传 算法 程序 实现 的 先行 者 。 把 遗传 算法 具体 应 用 到 -分 类 器 的 是 瑞 
兹 托 克 (Rizstoak) FFEA (Kubat), 





13.9 ”巩固 














你 的 知识 

















下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 


从 不 同 的 角度 要 


解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 





帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 
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练习 


如 表 13. 2 所 列 那样 ， 用 纸 和 笔 手 工 模拟 实现 一 个 遗传 算法 。 自 己 选择 适应 





Ke 

















函数 、 不 同 的 初始 种 群 和 随机 的 单 点 交叉 点 。 再 用 两 点 交叉 重复 这 个 练习 。 




















思考 题 
1. 解释 不 同 的 种 群 规模 如 何 影响 达到 一 个 优质 解 所 需 的 世代 更 蔡 数 目 。 仔 细 














说 明 种 群 规模 和 过 早退 化 问题 之 间 的 关系 。 再 讨论 一 下 适应 度 函 数 形状 的 


BZ 
EA 啊 ° 














. 在 哪些 类 型 的 搜索 问题 上 遗传 算法 比 传统 搜索 算法 可 能 更 有 效 ? 
. 找 出 一 些 适 合 应 用 遗传 算法 的 具体 问题 (不 同 于 前 面 本 书 中 提 到 的 )， 使 





问题 中 的 染色 体 最 适合 用 二 进 制 位 或 数字 串 来 表示 ， 或 更 适合 用 树 结构 
表示 。 


. 说 一 下 自然 进化 和 计算 机 模型 间 的 区 别 。 思 考 能 否 从 自然 界 得 到 更 多 的 灵 


感 。 你 认为 和 生物 进化 相 比 ， 计 算 机 程序 的 优势 在 哪里 ? 





上 机 实验 


1. 





实现 使 用 二 进 制 编码 染色 体 的 基本 遗传 算法 。 确 保存 活 函 数 ， 幸 运 轮 ， 重 
组 ， 变 异 都 是 单独 的 模块 ， 并 且 这 些 模块 都 很 通用 以 便 修 改 。 





. 为 第 1 章 中 的 “ 派 ” 和 “ 圈 ” 问 题 创 建 一 个 初始 的 种 群 ， 作 为 上 机 实验 第 


1 题 中 程序 的 输入 。 注 意 ， 在 “ 派 ”问题 中 ,你 要 考虑 对 原始 程序 做 少量 
修改 以 使 它 能 处 理 数字 串 编码 的 染色 体 。 


. 对 你 选择 的 问题 ， 实 现 几 种 不 同 的 配对 策略 。 在 实际 完成 中 确定 哪个 策略 


可 最 快 找到 解 。 找 最 优 解 的 速度 可 以 用 经 过 适应 度 评估 的 染色 体 的 数量 来 


度量 。 














.对 选 出 的 问题 ， 用 男 一 种 “鸡尾酒 ”重组 算 子 做 实验 ,使 用 不 同 的 重组 、 








变异 、 逆 序 频率 ， 画 图 显示 搜索 的 速度 (用 上 机 实验 第 3 题 中 所 说 的 方法 
度量 ) 是 如 何 依赖 于 参数 的 具体 设置 的 。 
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本 书 要 解决 的 基本 问题 是 如 何 导出 一 个 分 类 器 ， 并 确定 一 个 对 象 所 属 的 类 。 
目前 已 经 有 一 些 关 于 这 方面 的 研究 。 但 是 在 增强 学 习 (reinforcement learning) 中 ， 
完成 的 方式 有 所 不 同 。 智 能 体 (agent) 不 是 根据 已 经 预先 分 类 的 实例 集 去 归纳 ， 
而 是 在 系统 上 “实验 ”， 系 统 对 实验 做 出 奖励 或 惩罚 。 然 后 智能 体 根 据 系 统 做 出 
的 反应 来 优化 自己 的 行为 ， 使 奖励 最 大 、 惩 罚 最 小 。 

这 种 选择 模式 不 同 于 分 类 器 导出 型 任务 所 用 的 模式 ， 于 是 有 人 认为 应 把 它 归 
入 其 他 书 里 ， 如 这 本 书 的 续集 ， 关 于 这 一 方面 的 资料 很 多 ， 也 足够 这 么 做 。 不 过 
作者 认为 ， 如 果 不 在 本 书 中 介绍 一 些 增强 学 习 的 基本 概念 ， 本 书 的 结构 会 显得 不 


够 完整 ， 于 是 有 了 这 最 后 一 音 。 





















































14.1 如何 选 出 最 高 奖励 的 动作 


为 了 引入 有 关 术 语 并 对 增强 学 习 有 初步 的 理解 ， 我 们 从 介绍 一 个 简化 任务 
开始 。 

N BZR, 图 14.1 显示 了 5 台 老 虎 机 ， 每 台 老虎 机 的 平均 回报 各 不 相同 ， 
但 是 我 们 不 知道 平均 回报 具体 是 多 少 。 如 果 想 最 大 化 收益 ,我 们 需要 找 出 每 台 
虎 机 的 平均 回报 大 小 ， 并 且 一 直 使 用 那 台 回 报 最 大 的 机 器 。 这 就 是 机 需 学 习 中 N 
臂 老虎 机 (N-armed bandit) 问题 的 本 质 。 顺 便 说 一 句 ， 老 虎 机 因 会 夺 走 人 们 的 钱 
I AE 


图 14.1 问题 : 哪 台 老虎 机 的 平均 回报 最 大 









































从 理论 上 讲 ， 这 应 该 很 简单 。 为 什么 不 直接 在 各 机 器 上 反复 尝试 ， 以 观察 回 
报 ， 然 后 选择 回报 最 高 的 机 器 呢 ? 但 是 在 现实 中 ， 这 不 是 一 个 好 主意 。 在 对 哪 台 
是 最 好 的 机 融 做 出 可 靠 的 判断 之 前 ， 太 多 的 硬币 可 能 会 被 浪费 掉 。 
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一 个 简单 策略 。 考 虑 到 花费 ， 实 际 操作 中 工程 师 将 限制 试验 次 数 ， 并 根据 几 
次 试验 做 出 初步 选择 。 因 为 知道 这 个 选择 不 太 可 靠 ， 所 以 不 会 一 直 坚 持 。 偶 尔 会 
测试 其 他 机 器 : 也 许 它们 更 好 ? 如 果 收 益 更 好 ， 理 所 当然 要 用 这 个 新 的 换 掉 “ 先 
前 最 好 的 ”那个 。 这 个 策略 非常 自然 ， 不 是 机 器 学 习 专 家 也 能 想到 。 

这 就 是 增强 学 习 (reinforcement learning) 要 模仿 的 行为 。 在 图 14.1 的 例子 
中 ， 有 5 个 动作 可 选 。 上 面 介绍 的 原理 把 利用 (exploitation) 当前 最 好 的 机 器 和 探 
索 (exploration) 其 他 可 选 机 器 的 方法 结合 了 起 来 。“ 利用” 占 绝 大 多 数 , “探索 ” 
则 非常 少 。 在 最 简单 的 实现 中 ， 探 索 步 又 的 频率 由 用 户 设 定 的 参数 e 来 控制 。 例 
如 ，e=0.1 表示 “最 好 的 ”机 器 (在 前 面 实验 中 表现 最 好 的 ) 被 选中 的 次 数 占 
90% ; 其 余 机 器 被 选中 的 次 数 占 10% 。 

保存 奖励 的 全 部 记录 。“ 最 好 的 动作 ”定义 为 产生 平均 回报 最 高 的 那 一 个 。 
对 每 一 个 动作 ， 学 习 带 会 记录 对 应 的 回报 ; 这 些 回 报 的 平均 值 被 当成 这 个 动作 
的 质量 (quality) 。 例 如 ,我们 用 整数 1，2，3，4，,，5 来 标记 图 14.1 中 的 各 机 
at, Ba, 表示 选择 第 i 台 机 器 。 假 设 最 左边 的 机 器 被 选中 3 次 ,产生 的 回报 
为 : 7, =0, =9 以 及 r; =3， 则 这 次 选择 的 质量 为 O(al) = (7 +r +r)/ 
3 =(0+9+3)⁄3=4, 

由 于 保存 前 面 所 有 动作 的 奖励 比较 烦琐 ， 工 程 师 可 以 利用 式 (14.1) 来 解决 
这 一 问题 。 其 中 Q, Ca) 是 动作 a 从 大 次 奖励 中 算出 的 质量 ，m, 是 第 (k+1) 次 
奖励 。 





















































Quai Ca) = O(a) +H lna -oa (14.1) 


M (14.1), AURIE k MQ, (a) 的 值 就 能 “ 记 住 ”每 个 动作 ， 这 
就 是 全 部 所 需要 的 ， 通 过 结合 最 新 的 回报 ， 可 用 于 在 第 (hk+1) 步 更 新 动作 
的 值 。 

这 个 过 程 有 时 被 称 作 -Aù (e-greedy) 策略 。 表 14.1 给 出 了 算法 的 伪 
代码 。 





























GO 在 此 说 明 ， 回 报 可 以 是 负数 ， 即 相当 于 “和 抱 罚 ”。 
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表 14.1 efit (egreedy) 增强 学 习 算法 





输入 : 用 户 指定 参数 es， 如 se=0.1; 一 系列 动作 由 a; 表示 ， 初 始 估 计 值 为 0。(a); 
对 每 一 个 动作 a,， 令 =0 (动作 已 经 执行 的 次 数 ) 。 

1. 从 均匀 分 布 中 生成 一 个 随机 数 , pe (0, 1)。 

2. 如 果 p 宇 e， 选 择 有 最 大 值 的 动作 (利用 ); 否则， 随机 选择 一 个 其 他 动作 (探索) 。 

3. 前 一 步 选 择 的 动作 记 作 a,， 观 察 奖励 记 作 r,。 

4. 用 下 式 更 新 a; 的 值 : 


Qla) =0(o) ti [rn -0(0)] 


5. 使 =k,+1， 返 回 第 1 步 。 















































初始 化 过 程 。 为 了 使 用 式 (14. 1) ， 我 们 需要 从 某 处 开始 ， 为 每 个 动作 赋 初 值 
Q。(a;)。 一 种 可 能 是 选择 一 个 值 高 于 任何 现实 的 回报 。 例 如 ， 如 果 已 知 所 有 回报 
在 区 间 (0, 10) 中 ， 则 一 个 合理 的 初 值 是 0, (a;) =50。 

在 任意 时 刻 ， 系 统 均 按 (1 -e) 的 概率 选择 质量 最 高 的 动作 。 在 系统 开始 阶 
段 ， 所 有 动作 被 选择 的 机 会 相等 。 假 设 a, 被 选中 ， 接 下 来 得 到 奖励 ， 根 据 式 
(14.1) 这 个 动作 的 质量 将 会 降低 。 因 此 ， 当 要 选 下 一 个 动作 时 ， 很 有 可 能 会 选 到 
其 他 的 动作 (如果 是 利用 模式 )， 其 质量 也 将 被 降低 。 长 话 短 说 ， 在 游戏 的 早期 
阶段 ， 由 于 所 有 动作 的 质量 都 被 初始 化 为 同样 的 大 数 ， 因 此 它们 都 会 被 有 组 织 地 
选中 进行 实验 。 














F 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
。 措 述 在 N 背 老 虎 机 问题 中 搜索 最 好 的 机 器 用 到 的 < Ae SRO IEG, AA 
和 作 以 及 它们 的 质量 的 含义 。 利 用 和 和 探索 指 的 是 什么 ? 
o 描述 维护 平均 回报 的 简单 机 制 。 它 是 如 何 更 新 动作 的 质量 的 ? 
e 为 什么 本 节 中 建议 把 所 有 动作 的 初始 值 O0， (a) 设 为 比 典型 奖励 大 几 倍 
的 值 ? 


请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
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14.2 ”游戏 的 状态 和 动作 


这 个 简单 的 老虎 机 例子 可 用 于 解释 基本 的 术语 。 不 足 之 处 是 选 出 一 个 适当 的 
动作 时 每 台 机 器 只 有 一 个 状态 。 

现实 中 情况 要 复杂 得 多 。 通 常 ， 状 态 有 很 多 ， 对 应 动作 也 很 多 。 下 面 用 一 字 
BE (tic-tac-toe) 游戏 来 说 明 这 个 实质 。 

一 字 棋 游戏 。 基 本 的 3 x3 棋盘 如 图 14. 2 所 示 。 两 人 对 弈 时 ， 一 人 画 又 ， 一 人 
画 圈 。 只 要 首先 把 3 个 又 或 圈 连 成 一 条 线 就 算 赢 ， 无 论 是 连 成 一 行 、 一 列 或 对 角 
线 都 可 以 。 如 果 出 现 图 14. 2a 所 示 的 情况 ， 且 轮 到 画 叉 的 人 走 ， 他 在 左下 角 画 又 






























































就 可 以 赢 。 如 果 轮 到 他 的 对 手 走 ， 就 会 在 左下 角 位 置 画 圈 来 阻止 。 
OXX O XX 
X O —> XO 

0 XO 

a) b) 


图 14.2 FH, BAMA, PLEA, W3 子 连 成 一 线 则 胜 (水 
平 、 垂 直 或 对 角 均 可 ) 














状态 和 动作 。 棋盘 上 每 一 个 棋 面 代表 一 个 状态 。 对 每 一 个 状态 ， 棋 手 将 选择 
一 个 具体 的 动作 。 对 图 14. 2a 所 示 的 状态 ， 有 3 个 空位 ， 因 此 有 3 个 动作 可 选 
(其 中 一 个 动作 可 以 胜利 ) 。 所 有 的 走 法 可 以 用 一 张 查找 表 来 描述 ， 表 里 的 每 个 状 
S -动作 都 对 应 着 一 个 确定 的 值 0(s，a)。 根 据 这 个 值 ，e - 贪心 策略 决定 根据 当 
前 的 状态 执行 哪个 动作 。 该 动作 执行 后 会 得 到 一 个 奖励 *>， 这 个 奖励 可 根据 式 
(14.1) 更 新 状态 - 动作 对 应 的 值 。 

实现 这 个 学 习 场景 最 典型 的 做 法 是 让 程序 自己 玩 这 个 游戏 很 多 次 ， 从 某 
个 随机 的 选择 开始 (只 基于 初始 值 0(s，a))， 逐渐 改进 ， 最 终 达 到 很 高 
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的 值 。 

实现 这 个 做 法 最 主要 的 问题 是 如 何 决定 一 个 具体 动作 的 奖励 。 理 论 上 有 3 个 
方法 可 以 考虑 。 

情节 模式 (Episodic formulation ) o 这 可 能 是 处 理 奖 励 分 配 问题 最 简单 的 办 法 。 
当 一 局 结束 ， 如 果 赢 了 ， 在 整个 游戏 过 程 中 学 习 智能 体 经 历 的 所 有 状态 - 动作 都 
可 以 得 到 奖励 1; 如 果 输 了 ， 则 得 到 奖励 -1。 

这 个 办 法 的 最 大 缺点 是 并 非 每 一 步 都 对 最 终结 果 的 贡献 相等 。 一 个 棋 手 可 能 
走出 很 多 步 好 棋 ， 但 是 只 要 有 一 步 走 错 ， 就 会 导致 输 棋 。 在 这 种 情况 下 ， 惩 罚 好 
的 动作 不 公平 也 不 切实 际 。 反 过 来 也 一 样 ， 较 差 的 行为 因为 对 手 意外 的 失误 而 胜 
利 ， 较 差 的 行为 都 得 到 奖励 。 有 些 人 可 能 说 ， 在 长 时 间 的 实验 中 ， 这 些小 的 “不 
公平 ”会 被 平均 掉 ， 但 总 的 说 来 能 赢 棋 的 行为 还 是 要 更 好 一 点 。 情 节 模 式 的 优点 
是 简单 。 

连续 模式 (Continuing formulation) 。 如 果 能 在 一 个 动作 完成 后 立刻 知道 奖励 是 
多 少 ， 那 么 前 面 情节 模式 的 问题 (因为 一 步 错误 而 惩罚 一 连 串 好 的 行为 ) 就 能 避 
免 。 有 时 这 的 确 是 能 做 到 的 ， 即 便 在 不 可 能 的 领域 ， 也 至 少 可 以 做 些 估 计 。 

然而 ， 大 多 数 时 候 ， 在 游戏 结束 前 试图 确定 某 一 动作 的 奖励 带 有 投机 性 ，3 
且 会 对 结果 产生 误导 。 所 以 这 种 方法 很 少 使 用 。 

折 中 : 打折 回报 (discounting retum ) 。 其 本 质 是 对 情景 模式 的 改进 ， 根 据 游 
戏 的 步 数 来 决定 奖励 。 例 如 ， 一 字模 赢 一 局 的 时 间 越 长 ， 奖 励 就 越 小 。 这 其 中 的 
逻辑 是 ， 动 作 越 强 ， 赢 得 越 快 。 实 施 这 个 策略 的 方法 是 通过 在 胜利 前 所 采取 的 步 
又 的 数目 来 折扣 最 后 的 奖励 。 

这 个 想法 的 公式 化 表示 : Or, 为 第 于 步 实验 得 到 的 奖励 , 令 ye (0, 1) 为 用 
户 设 定 的 折扣 系数 常量 。 于 是 折扣 回报 (discount return) R 可 用 式 (14.2) 计算 : 

R= Dyn, (14. 2) 

注意 ， 随 着 的 增加 ， 与 7 相 乘 的 系数 将 减 小 。 如 果 在 第 10 步 得 到 最 终 的 奖 
励 ， 并 且 取 得 胜利 的 奖励 是 “1”， 那 么 对 于 y =0.9 的 奖励 折扣 是 R=0.9” .1 
=0.35。 

示例 : 杆 平衡 。 图 14. 3 所 示 的 杆 平衡 问题 很 好 地 说 明了 回报 折扣 是 个 好 策 
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略 。 这 里 每 个 状态 被 一 些 属 性 所 措 述 ， 如 小 车 的 位 置 、 小 车 的 速度 、 杆 的 角度 ， 
以 及 杆 的 角度 变化 时 的 速度 等 。 这 个 任务 本 质 上 有 两 个 基本 动作 可 选 : 中 从 左 向 
右 施加 力 ; @ 从 右 向 左 施加 力 ， 并 且 还 可 以 允许 使 用 不 同 大 小 的 力 。 这 个 任务 最 
简化 的 版 本 是 按 固定 的 时 间 间 隔 执行 动作 ， 如 0. 2s。 











图 14.3 任务 : 左右 移动 小 车 使 杆 保持 持续 坚 直 

















在 这 个 游戏 里 ， 在 杆 倒 下 前 坚持 的 时 间 越 长 ， 启 得 越 大 。 这 也 是 为 什么 时 间 
长 要 比 时 间 短 得 到 的 奖励 多 。 一 个 简单 的 办 法 来 实现 这 一 情况 是 ， 游 戏 中 每 个 状 
态 的 动作 奖励 为 0， 最 后 杆 倒 下 时 r= -10。 于 是 回报 折扣 为 R= -10y", HN 
为 杆 倒 下 前 移动 的 次 数 。 











Fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 
有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
© 解释 状态 和 动作 的 区 别 。“ 状 态 -动作 的 值 ” 的 含义 是 什么 ? 
e 分 配 奖 励 时 ， 情 节 模 式 和 连续 模式 有 什么 不 同 ? 
e 讨论 折扣 回报 这 个 想法 背后 的 动机 。 给 出 精确 的 公式 ， 并 且 用 杆 平衡 游戏 
来 说 明 它 。 
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14.3 SARSA 方法 


前 两 节 只 介绍 了 一 个 很 简单 的 机 制 ， 用 来 处 理 增强 学 习 的 问题 。 在 这 里 我 们 
简要 地 介绍 一 种 更 为 流行 的 SARSA 方法 。 算 法 的 伪 代 码 见 表 14. 2 。 








表 14.2 SARSA 算法 使 用 e -贪心 策略 及 任务 情节 模式 


输入 : MPESA E, a, y; 所 有 动作 - 值 对 的 初始 值 为 0。(* ，w ) ; 对 每 一 个 
状态 -动作 对 ，s,，a;， 初 始 值 h, =0。 

选择 一 个 初始 状态 so 

.从 表 14. 1 中 使 用 e -贪心 策略 选择 动作 a。 

.执行 动作 a。 进入 状态 s， 并 得 到 奖励 ro 

. 在 达到 状态 * 后 ， 使 用 e -贪心 策略 选择 动作 a’'。 然 后 更 新 Q(s, a) =Q(s, a) +a 
[r+yQ(s’, a’) -Q(s, a)]。 

5. 令 s=s' 且 a=a'。 若 :是 终止 状态 ， 则 转 到 第 1 步 开 始 一 个 新 的 情景 ;否则 转 到 

第 3 步 。 























一 
































本 质 上 ， 这 里 使 用 了 带 折扣 的 情节 模式 。 这 一 方法 始 于 选择 一 个 初始 状态 $ 
(在 有 些 应 用 领域 ,初始 状态 是 随机 产生 的 )。 在 一 系列 连续 的 步骤 中 ， 根 据 e- 贪 
心 策略 来 选择 动作 。 每 个 动作 产生 一 个 新 状态 ;， 并 且 得 到 奖励 r+。 同样 的 -贪心 
策略 又 被 用 来 选择 下 一 个 动作 a (在 状态 *' 时 选择 ) 。 之 后 状态 -动作 对 的 质量 
Q(s, a) text (14.3) 更 新 : 

Q(s, a) =Q(s, a) tal[r+yQ(s', a’) -Q(s, a) ] (14.3) 

RF, a 是 用 户 设 定 的 常量 ; y 是 折扣 因子 。 

这 里 需要 注意 的 是 ， 状 态 - 动作 对 质量 的 更 新 基于 5 元 组 (s, a, r, 3’, 
w')。 这 也 是 方法 名 称 的 由 来 。 
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fi 你 学 到 了 什么 ? 
为 确保 你 已 经 理解 了 本 节 的 内 容 ， 请 试 着 回答 以 下 问题 。 如 果 在 解答 过 程 中 


第 14 章 
增强 学 习 


有 任何 困难 ， 请 回顾 本 节 的 相关 内 容 。 
描述 增强 学 习 SARSA 方法 的 原理 。 这 个 方法 的 名 字 是 怎么 来 的 ? 








14.4 ”总 结 和 历史 简 评 


不 同 于 前 面 章节 介绍 的 分 类 器 归纳 问题 ， 增 强 学 习 假 定 智 能 体 在 它 要 控制 
的 系统 中 直接 进行 实验 来 学 习 和 分 类 。 

在 非常 简化 的 N- 臂 老虎 机 问题 中 ， 智 能 体 寻 求 识别 最 有 希望 的 动作 ， 即 平 
均 回 报 最 高 的 那个 。 实 际 中 最 简单 的 实现 基于 所 谓 的 e- 贪 心 策 略 。 

在 更 真实 的 任务 实现 中 ， 假 定 存在 一 个 状态 集合 ， 对 每 个 状态 ， 智 能 体 从 
动作 集合 中 做 选择 。 这 个 选择 可 以 通过 基于 状态 -动作 对 O(s, a) 的 质 
EW e- 贪 心 策略 完成 。 

对 于 状态 -动作 对 分 配 奖励 的 问题 可 以 通过 情节 模式 、 连 续 模 式 或 情节 模 
式 加 上 折扣 的 方式 来 解决 。 

。 作为 增强 学 习 的 更 高 级 方法 ， 本 章 简 要 地 介绍 了 SARSA 方法 。 

小 结 。 贝 尔 曼 ” (Bellman) 第 一 个 提出 了 “老虎 机 ”问题 的 系统 化 处 理 方 
法 ， 并 完成 了 一 些 早 期 的 工作 。 更 为 重要 的 是 ， 他 后 来 发 展 了 动态 规划 (dynamic 
programming) 的 原理 ， 被 认为 是 增强 学 习 的 先驱 中 。 但 是 ,增强 学 习 的 基本 理论 
及 发 展 应 该 归功 于 萨 顿 ™ (Sutton)。 















































14.5 ”巩固 你 的 知识 














下 面 的 练习 用 于 进一步 巩固 所 学 的 知识 。 本 书 提供 的 思考 实验 可 以 帮助 读者 
从 不 同 的 角度 理解 本 章 所 提 及 的 思想 并 提高 读者 独立 思考 的 能 力 。 上 机 实验 可 以 
帮助 读者 注意 到 那些 容易 被 忽视 的 细节 。 
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练习 
计算 图 14. 2 中 一 字 棋 状态 - 动作 对 的 个 数 。 


思考 题 


1. 本 章 全 部 的 内 容 都 建立 在 使 用 e- 贪 心 策略 上 。 你 认为 这 个 策略 有 什么 局 限 

PE? 有 什么 办 法 克服 吗 ? 

2. 本 章 用 简单 的 游戏 解释 了 增强 学 习 的 原理 。 你 能 否 想 出 现实 世界 中 其 他 有 
趣 的 应 用 案例 ?” 主要 难点 在 于 如 何 把 具体 问题 映射 成 增强 学 习 的 形式 。 

3. 对 于 图 14. 2 中 的 一 字 横 ， 可 能 需要 多 少 个 情景 来 解决 这 个 问题 ? 

















上 机 实验 


1. 用 程序 实现 图 14. 1 所 示 的 N- 臂 老虎 机 。 

2. 思考 图 14. 4 所 示 的 迷 宣 问题 (maze-problem ) ， 要 求 找 出 从 起 点 (S) BIA 
点 (G) 最 近 的 路 。 利 用 计算 机 ， 根 据 增强 学 习 的 原理 并 基于 大 量 的 走 步 
训练 来 学 习 最 短路 径 。 请 给 出 状态 和 动作 的 数据 结构 ， 并 写 出 基于 情节 模 
式 和 *e- 贪 心 策略 的 程序 。 














图 14.4 智能 体 从 $S 出 发 ， 任 务 是 找 出 到 达 终 点 G 最 近 的 路 径 
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译 后 记 


目前 ， 人 类 已 经 进入 了 智能 信息 时 代 。 以 机 器 学 习 为 核心 的 人 工 智 能 技术 正在 
推动 着 各 个 领域 的 发 展 ， 比 如 机 器 人 、 智 能 手机 、 物 联网 、 数 据 挖掘 等 。 机 器 学 习 
这 一 学 科 融 合 了 计算 机 科学 、 统 计 学 、 最 优化 理论 和 神经 计算 学 等 多 个 学 科 的 精华 ， 
以 学 习 数据 内 在 结构 和 其 中 蕴藏 的 规律 性 知识 为 目标 。 如 果 说 数据 是 矿藏 资源 ， 那 
机 器 学 习 无 疑 就 是 发 掘 资源 价值 的 生产 工具 。 而 现在 ， 几 乎 每 个 学 科 ， 包 括 社会 科 
学 领域 ， 都 在 不 停 地 产生 数据 ， 这 也 就 是 机 器 学 习 得 以 快速 发 展 和 普及 的 缘由 。 

本 书 翻译 自 米 罗斯 拉夫 ' 库 巴 特 所 撰写 的 一 本 人 门 级 的 机 器 学 习 教材 。 库 巴 
特 是 美国 迈阿密 大 学 电子 与 计算 机 工程 系 机 器 学 习 和 人 工 智 能 方面 的 专家 。 本 书 
几乎 覆盖 了 机 器 学 习 所 有 的 基本 议题 ， 比 如 贝 叶 斯 分 类 器 、 决 策 树 、 神 经 网 络 、 
计算 学 习 理论 、 集 成 学 习 、 遗 传 算法 和 增强 学 习 等 ， 而 且 本 书 特别 强调 学 以 致 用 ， 
不 仅仅 希望 学 生 能 够 掌握 基本 的 机 器 学 习 技术 ， 而 且 和 希望 他 们 作为 未 来 的 工程 师 
了 解 各 种 方法 的 优势 与 劣势 ， 以 适应 工业 界 的 需求 。 和 其 他 机 器 学 习 图 书 相 比 ， 
本 书 最 大 的 特点 是 浅显 易 懂 ， 能 很 好 地 满足 公众 想 了 解 机 器 学 习 基 本 原理 的 需求 。 
另外 ， 本 书 的 组 织 和 选材 适合 作为 本 科 生 机 器 学 习 课 程 的 教材 。 当 然 ， 本 书 也 可 
以 作为 一 本 参考 书 来 使 用 。 

全 书 共 14 章 。 由 王 勇 、 仲 国 强 和 孙 多 三 位 老师 共同 翻译 完成 。 王 勇 负责 第 1、 
10~14 章 ， 仲 国 强 负责 第 2 ~6 4, PARRA 7 ~ 9 章 。 张 伊 丹 、 谭 锦 君 、 王 天 
Z. EM, FR, WS, RB. EY, MBH, KR, EMERE B 
的 出 版 做 出 了 贡献 。 

在 本 书 翻译 过 程 中 ， 得 到 了 华东 政法 大 学 高 宏 老 师 的 大 力 支持 ， 在 此 表示 衷心 感 
谢 。 译 者 也 感谢 机 械 工业 出 版 社 的 编辑 们 ， 正 是 他 们 的 努力 ， 本 书 才 得 以 与 读者 见面 。 

本 书 涉及 的 内 容 广泛 ， 对 一 些 没有 标准 译 法 的 术语 ， 尽 量 采 用 当前 流行 的 译 
法 ， 对 可 能 产生 歧义 的 和 较为 重要 的 术语 均 附 上 了 英文 原文 。 翻 译 时 力求 忠于 原 
著 ， 并 符合 中 文 的 表达 习惯 ,为 了 翻译 得 简洁 准确 ， 进 行 了 大 量 讨论 。 尽 管 如 此 ， 
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评审 的 论文 ， 与 人 合 编 了 两 本 著作 ， 是 近 60 个 
会 议和 研讨 会 的 程序 委员 会 委员 ， 并 担任 3 本 学 
术 刊 物 的 编 委 。 他 在 两 个 方面 的 前 沿 研究 上 得 
到 了 广泛 赞誉 ， 时 变 概念 的 归纳 学 习 和 在 非 平 
衡 训练 集 上 的 学 习 。 此 外 ， 在 多 标签 样 例 上 的 
归纳 学 习 、 层 次 组 织 的 类 别 上 的 归纳 学 习 、 遗 
传 算法 、 神 经 网 络 的 初始 化 等 问题 上 ， 他 也 做 
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本 书 组 织 完备 ,每 一 节 都 有 一 个 “你 学 到 了 什么 ”的 小 结 ,每 一 章 都 有 简明 扼要 的 总 结 
及 历史 简 评 ， 并 提供 了 大 量 的 练习 。 全 书 章节 都 有 经 过 精心 选择 和 设计 的 例子 ， 以 帮助 读者 
理解 每 一 个 概念 。 通 过 阅读 本 书 ， 我 学 到 了 很 多 机 器 学 习 的 基本 知识 。 
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米 罗 斯 拉夫 库 巴 特 所 著 的 这 本 《 机 器 学 习 导论 ) 更 像 是 一 本 科普 性 质 的 读物 ， 作 者 尽 
量 避 开 复杂 的 数学 公式 ， 用 生动 形象 的 方式 介绍 机 器 学 习 算法 ， 而 且 本 书 篇 幅 适 当 ， 又 泣 盖 
了 几乎 所 有 基本 的 机 器 学 习 方法 ， 使 得 本 书 不 仅 适合 作为 本 科学 生机 器 学 习 课 的 教材 ， 也 适 
合 想 了 解 机 器 学 习 入 门 知 识 的 普通 读者 。 


”本 书 系统 全 面 ， 既 可 以 自学 又 可 以 作为 研究 参考 。 

”有 既 道 出 了 机 器 学 习 的 前 世 今生 ， 又 展望 了 发 展 的 未 来 ， 让 道听途说 的 信息 止 于 智者 。 
全 面 讨论 机 器 学 习 方 法 和 技术 ， 层 次 合理 、 叙 述 清晰 、 难 度 适 中 。 
涵盖 了 经 典 的 机 器 学 习 算法 和 理论 ， 同 时 补充 了 近年 来 新 出 现 的 机 器 学 习 方法 。 
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